常在傳統機器學習的領域聽到"Garbage in, garbage out."這句話,意思是如果以資訊含量極低的特徵來訓練模型,則模型的輸出必然也是沒有價值的。要達到打造精準的機器學習預測模型,必然先對特徵工程下一番功夫。我將在這30天內複習入門觀念到深入特徵工程的主題 ,並且透過Kaggle的過往線上競賽所提供之資料集來做學習成果的驗證。
生成多項式和交互功能。 生成一個新的特徵矩陣,該特徵矩陣由度數小於或等於指定度數的特徵的所有多項式組合組成。例如,如果輸入樣本是二維的並且形式為[a,b],則2...
我鐵人賽持續已經進入尾聲,第21天啦!這中間的過程大部分是對資料的完善,到目前為止,在處理資料時,我們探討的範圍包含: 透過辨識資料的尺度理解表徵 改善資料及...
皮爾遜積差相關係數在此系列文的EDA文章內有出現過幾次了,他其實就是pandas dataframe的corr方法產生的結果: #Pearson correla...