iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 13
0
Google Developers Machine Learning

Machine Learning Day30系列 第 25

[Day25] 模型選擇-集成方法

集成方法

  • 使⽤不同⽅式,結合多種不同分類器,作為綜合預測的做法。
  • 將模型截長補短,也可說是機器學習裡的「多數決」

資料面集成

使⽤不同訓練資料 + 同一種模型,多次估計的結果合成最終預測

裝袋法(Bagging)

  • 將資料放入袋中抽取,每回合結束後全部放回袋中重抽
  • 再搭配弱分類器取平均多數決結果
  • 最有名的就是前⾯學過的隨機森林

提升法(Boosting)

  • 之前模型的預測結果,去改變資料被抽到的權重或⽬標值
  • 將錯判資料被抽中的機率放⼤,正確縮⼩,就是⾃適應提升
  • 依照估計誤差的殘差項調整新⽬標值,就是梯度提升機(Gradient
    Boosting Machine) 的作法

特徵面集成

使⽤同⼀資料 + 不同模型,合成出不同預測結果

混合泛化(Blending)

  • 不同模型的預測值加權合成,權重和為 1
  • 取預測的平均或一人一票多數決(每個模型權重相同),則又稱為投票泛化(Voting)
  • 前提是 : 個別單模效果都很好(有調參)並且模型差異大

https://ithelp.ithome.com.tw/upload/images/20191015/201125681a7651ESNI.png

堆疊泛化(Stacking)

  • 將預測結果混合,使用預測結果當新特徵
  • 更進一步的運用了資料輔助集成,使得 Stacking 複雜許多

https://ithelp.ithome.com.tw/upload/images/20191015/20112568P4AUtNGLOz.png

混合泛化相對堆疊泛化來說,
優點在於使用容易,
缺點在於無法更深入的利用資料更進一步混合模型。


以上,打完收工。


上一篇
[Day24] 超參數調整
下一篇
[Day26] 監督式學習 - 前處理 Processing (1/6)
系列文
Machine Learning Day3026
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言