.

iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

特徵工程 in 30 days 系列

常在傳統機器學習的領域聽到"Garbage in, garbage out."這句話,意思是如果以資訊含量極低的特徵來訓練模型,則模型的輸出必然也是沒有價值的。要達到打造精準的機器學習預測模型,必然先對特徵工程下一番功夫。我將在這30天內複習入門觀念到深入特徵工程的主題 ,並且透過Kaggle的過往線上競賽所提供之資料集來做學習成果的驗證。

參賽天數 22 天 | 共 23 篇文章 | 49 人訂閱 訂閱系列文 RSS系列文
DAY 20

[改善資料品質]Part-3 多項式特徵

生成多項式和交互功能。 生成一個新的特徵矩陣,該特徵矩陣由度數小於或等於指定度數的特徵的所有多項式組合組成。例如,如果輸入樣本是二維的並且形式為[a,b],則2...

2018-10-23 ‧ 由 renton_hsu 分享
DAY 21

[特徵選擇]intro

我鐵人賽持續已經進入尾聲,第21天啦!這中間的過程大部分是對資料的完善,到目前為止,在處理資料時,我們探討的範圍包含: 透過辨識資料的尺度理解表徵 改善資料及...

2018-10-24 ‧ 由 renton_hsu 分享
DAY 22

[特徵選擇]使用皮爾遜積差相關係數來做特徵選擇

皮爾遜積差相關係數在此系列文的EDA文章內有出現過幾次了,他其實就是pandas dataframe的corr方法產生的結果: #Pearson correla...

2018-10-25 ‧ 由 renton_hsu 分享