iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

特徵工程 in 30 days 系列

常在傳統機器學習的領域聽到"Garbage in, garbage out."這句話,意思是如果以資訊含量極低的特徵來訓練模型,則模型的輸出必然也是沒有價值的。要達到打造精準的機器學習預測模型,必然先對特徵工程下一番功夫。我將在這30天內複習入門觀念到深入特徵工程的主題 ,並且透過Kaggle的過往線上競賽所提供之資料集來做學習成果的驗證。

參賽天數 22 天 | 共 23 篇文章 | 49 人訂閱 訂閱系列文 RSS系列文
DAY 10

[改善資料品質]Part-2 面對缺漏值的對策 Coding實例

本篇對[改善資料品質]階段性的Coding實例,方便學習的朋友能一次看到目前的進度以coding演示。 首先匯入需要的模組 from functools imp...

2018-10-13 ‧ 由 renton_hsu 分享
DAY 11

[改善資料品質]Part-2 面對缺漏值的對策 Coding實例-B

接續昨天的初版特徵,用隨機森林的模型訓練後於Kaggle上的分數為73.54%準確率。雖然不差,但還有許多改善空間。分數不佳的原因在於前一篇文章中採用的處理缺漏...

2018-10-14 ‧ 由 renton_hsu 分享
DAY 12

[改善資料品質]Part-3 正規化與標準化資料-Intro

到目前為止,已經知道識別數據類型以及資料缺漏的問題,也實際見識填補資料數據的方法。現在將探討的是正規化與標準化資料,也是增強機器學習流程的方法之一。 讓我們從一...

2018-10-15 ‧ 由 renton_hsu 分享
DAY 13

[改善資料品質]Part-3 正規化與標準化資料_Z-score normalization

最常見的正規化技術,Z-score normalization,背後有著簡單的統計概念。Z-score normalization的結果是被重新縮放以具有平均為...

2018-10-16 ‧ 由 renton_hsu 分享
DAY 14

[改善資料品質]Part-3 正規化與標準化資料_Min-max scaling

Min-max scaling與z-score normalization同樣有著一組公式:m = (x -xmin) / (xmax -xmin) 在此公式中...

2018-10-17 ‧ 由 renton_hsu 分享
DAY 15

[改善資料品質]Part-3 正規化與標準化資料_Row normalization

Row normalization 最後一個正規化方法是按行(row)而不是逐個列(欄位)進行。此標準化技術將確保每行數據都具有一樣的範數(Norm),聽起來很...

2018-10-18 ‧ 由 renton_hsu 分享
DAY 16

[改善資料品質]Put all together == Titanic challenge top 6%

驗證現有的知識 從鐵人賽旅程的一開始到現在也經過15天,賽程的一半了。回頭看看這段時間因為寫文的關係,複習了不少特徵工程的知識。因此昨天找了一空檔時間,來進行t...

2018-10-19 ‧ 由 renton_hsu 分享
DAY 17

[改善資料品質]Part-3 建構新的表徵-intro

今天將介紹的是在現有的資料內新增表徵,可以理解為手上有一張從資料庫的table內撈出的資料紀錄,我們則手動在這筆資料內新增欄位。新增表徵的用意是什麼、表徵的值從...

2018-10-20 ‧ 由 renton_hsu 分享
DAY 18

[改善資料品質]Part-3 建構新的表徵-編碼類別表徵

我們如何讓機器學習算法來使用類別資料或說名目尺度的資料?簡單地說,我們需要將這些分類的資料轉換成數字類型的資料。任何機器學習算法,無論是線性回歸還是利用KNN的...

2018-10-21 ‧ 由 renton_hsu 分享
DAY 19

[改善資料品質]Part-3 建構新的表徵-將連續型數字類別編碼為類別

有時,我們也許會想將連續的數值資料轉換為分類資料。例如,titanic資料中Age欄位,我們可以將年齡這樣連續性的數值資料編碼成範圍;0-15兒童/15-30青...

2018-10-22 ‧ 由 renton_hsu 分享