常在傳統機器學習的領域聽到"Garbage in, garbage out."這句話,意思是如果以資訊含量極低的特徵來訓練模型,則模型的輸出必然也是沒有價值的。要達到打造精準的機器學習預測模型,必然先對特徵工程下一番功夫。我將在這30天內複習入門觀念到深入特徵工程的主題 ,並且透過Kaggle的過往線上競賽所提供之資料集來做學習成果的驗證。
本篇對[改善資料品質]階段性的Coding實例,方便學習的朋友能一次看到目前的進度以coding演示。 首先匯入需要的模組 from functools imp...
接續昨天的初版特徵,用隨機森林的模型訓練後於Kaggle上的分數為73.54%準確率。雖然不差,但還有許多改善空間。分數不佳的原因在於前一篇文章中採用的處理缺漏...
到目前為止,已經知道識別數據類型以及資料缺漏的問題,也實際見識填補資料數據的方法。現在將探討的是正規化與標準化資料,也是增強機器學習流程的方法之一。 讓我們從一...
最常見的正規化技術,Z-score normalization,背後有著簡單的統計概念。Z-score normalization的結果是被重新縮放以具有平均為...
Min-max scaling與z-score normalization同樣有著一組公式:m = (x -xmin) / (xmax -xmin) 在此公式中...
Row normalization 最後一個正規化方法是按行(row)而不是逐個列(欄位)進行。此標準化技術將確保每行數據都具有一樣的範數(Norm),聽起來很...
驗證現有的知識 從鐵人賽旅程的一開始到現在也經過15天,賽程的一半了。回頭看看這段時間因為寫文的關係,複習了不少特徵工程的知識。因此昨天找了一空檔時間,來進行t...
今天將介紹的是在現有的資料內新增表徵,可以理解為手上有一張從資料庫的table內撈出的資料紀錄,我們則手動在這筆資料內新增欄位。新增表徵的用意是什麼、表徵的值從...
我們如何讓機器學習算法來使用類別資料或說名目尺度的資料?簡單地說,我們需要將這些分類的資料轉換成數字類型的資料。任何機器學習算法,無論是線性回歸還是利用KNN的...
有時,我們也許會想將連續的數值資料轉換為分類資料。例如,titanic資料中Age欄位,我們可以將年齡這樣連續性的數值資料編碼成範圍;0-15兒童/15-30青...