在上次的處理中尚未除去明顯的極端值,因此這次我們針對面積超過一定程度的資料進行刪除。 train = train[train.GrLivArea < 45...
延續上一次的補值,在特殊的行當中,我們可以從行本身的意義判斷出應該補的值,例如當車庫的屬性為空值,可能原因就是該棟房子並沒有車庫,因此這些相關的面積等等資訊都可...
特徵調整 在這裡要使用一個較特殊的運算叫做boxcox,boxcox1p則是加上1之後才做boxcox避免過程中出現錯誤,boxcox的公式如下。 做完這個轉換...
新增特徵 本篇文章將特徵之間的關係做一個簡單的連結並產生新的特徵,產生新特徵這個動作在連結不同要素的影響時是很重要的,例如同時購買a與b一個特徵,以及買a、買b...
將特徵都整理的差不多之後,由於當初我們合併了Train以及Test兩個資料集,要在最後將原先的資料切割開,並簡單處理一下離群值。 # y為測試集 X = fin...
資料的部分準備完畢之後,接下來最重要的就是模型的產生以及訓練了,在這裡我們先定義了線性模型的交叉驗證以及參數組合,方便之後進行使用。定義交叉驗證評分函數 imp...
生成這些Boosting模型時,參數已經調整過,若是對調整超參數有其他想法也可以使用第16天的超參數調整哦! from sklearn.ensemble imp...
訓練模型 print('START Fit') print('stack_gen') stack_gen_model = stack_gen.fit(np.a...
結束了機器學習的部分之後,接下來要與其他團隊夥伴進行連結,在我的部分主要是負責處理資料以及傳送資料至後端提供前端做呈現。在這裡,傳送資料的步驟可以使用pytho...
實戰完整程式碼不知不覺就經過了30天的文章考驗,剛開始的幾天較有餘裕,文章的質量也比較高一些,但之後隨著比賽以及開學的上課時間影響,文章質量有所下降,對讀者還是...