iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 13
0
Google Developers Machine Learning

Machine Learning Day30系列 第 16

[Day16] 特徵工程-處理方法

  • 分享至 

  • xImage
  •  

特徵工程的處理方法有以下三種,
特徵組合、特徵篩選和特徵評估,
資料來源參考機器學習百日馬拉松。

特徵組合

數值與數值

在計程⾞費預估中,有四個欄位分別表示起終點的經緯度,
合理理的想法是,將這四個特徵看成座標,
因此⽤平⾯座標距離組合出來的特徵,更有預測⼒也非常合理。

https://ithelp.ithome.com.tw/upload/images/20190930/201125682VsIo9hP9y.png

類別和數值

取類別平均值 (Mean) 取代險種作為編碼,
但因為比較像性質描寫,因此還可以取其他統計值,
如中位數 (Median),眾數(Mode),最⼤值(Max),最⼩值(Min),次數(Count)...等。

https://ithelp.ithome.com.tw/upload/images/20190930/20112568DIqjGPiVBK.png

特徵篩選

特徵需要適當的增加與減少,以提升精確度並減少計算時間。

  • 過濾法 (Filter) : 選定統計數值與設定⾨檻,刪除低於⾨檻的特徵
  • 包裝法 (Wrapper) : 根據⽬標函數,逐步加入特徵或刪除特徵
  • 嵌入法 (Embedded) : 使⽤機器學習模型,根據擬合後的係數,刪除係數低於門檻的特徵

特徵評估

  • 分⽀次數:如下圖,最重要的特徵是「房間數」
  • 特徵覆蓋度:如下圖,「坪數」與「房間數」的覆蓋度相同(都是8)
  • 損失函數降低量:看損失函數 (loss function) 決定

https://ithelp.ithome.com.tw/upload/images/20190930/20112568HvJI74oau3.png


處理完特徵工程後,
接著就是「機器學習」了,
繼續前進吧!


以上,打完收工。


上一篇
[Day15] 特徵工程-資料類型處理
下一篇
[Day17] 機器學習三步驟
系列文
Machine Learning Day3026
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言