iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 27
0
AI & Data

跟top kaggler學習如何贏得資料分析競賽 系列 第 27

[Day 27] ensembling - boosting / 提升法

  • 分享至 

  • xImage
  •  

Boosting / 提升法 定義

  • 提升法是把之前的預測透過權重或殘差整合成一個綜合模型的方法, 厲害的 XGBoost, LightGBM 跟 H2O's GBM, Catboost, Sklearn's GBM 都屬於 Residual based boosting 家族.
  • 重點在極小化error 的兩種作法:(1)錯誤率的弱分類器放⼤,是一種自適應提升; (2)而殘差調整成新目標值, 則是梯度提升機.
  • Weight based boosting
  • Residual based boosting

Boosting

.. Weight based Residual based(image, video)
方法 權重以實際與預測之絕對差加上1(圖一, 二) 以殘差取代變成新的實際值 (圖三, 四)
parameter-1 Learning rate (or shrinkage or eta) Learning rate (or shrinkage or eta)
parameter-2 number of estimators越多, 需要的learning Rate 數量越少, 正確的值可藉助 cross-validation number of estimators-> more is better; Row(sub) sampling; Column(sub) sampling
parameter-3, input model Can be anything that accepts weights better be trees
Sub boosting type AdaBoost(Sklearn), LogitBoost(Weka) Fully gradient based, Dart (Dropout)

圖一
https://ithelp.ithome.com.tw/upload/images/20190928/20108719sZcg1HLhMh.png
圖二
https://ithelp.ithome.com.tw/upload/images/20190928/20108719YBNAiH9aI5.png
圖三
https://ithelp.ithome.com.tw/upload/images/20190928/20108719CMLnbH56F5.png
圖四 : 以殘差取代變成新的實際值後, 與舊的預測比較, score 變高了
to predict Rownum=1 : final prediction=0.75+0.2=0.95
https://ithelp.ithome.com.tw/upload/images/20190928/20108719tmXwSVzzjc.png
截圖自Coursera


集成類別

下列是資料集成跟模型集成方法的結構比較, 要小心別搞混.
https://ithelp.ithome.com.tw/upload/images/20190928/20108719n7fnv1GCtR.png
截圖自 AI 100 陳明佑簡報


上一篇
[Day 26] ensembling - bagging / 集成機器學習方法
下一篇
[Day 28] ensembling - stacking
系列文
跟top kaggler學習如何贏得資料分析競賽 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言