特徵工程的處理方法有以下三種,
特徵組合、特徵篩選和特徵評估,
資料來源參考機器學習百日馬拉松。
在計程⾞費預估中,有四個欄位分別表示起終點的經緯度,
合理理的想法是,將這四個特徵看成座標,
因此⽤平⾯座標距離組合出來的特徵,更有預測⼒也非常合理。
取類別平均值 (Mean) 取代險種作為編碼,
但因為比較像性質描寫,因此還可以取其他統計值,
如中位數 (Median),眾數(Mode),最⼤值(Max),最⼩值(Min),次數(Count)...等。
特徵需要適當的增加與減少,以提升精確度並減少計算時間。
處理完特徵工程後,
接著就是「機器學習」了,
繼續前進吧!
以上,打完收工。