iT邦幫忙

2023 iThome 鐵人賽

DAY 14
0

在前幾篇有提到關於 Ensemble 這個名詞,是之前都沒學過的東東,所以今天想要來一起了解這是個啥,其實我已經感受到我的鐵人賽學習順序非常混亂,但就先這樣吧,我也沒有什麼大綱。
題外話今天烤肉,所以趕在下午前要打完


這邊來一些概念補充
噪聲( Noise )
噪聲是隨機性或錯誤,來自測量或資料收集過程,引入資料的不規則變化

  • 來源: 多個來源,例如傳感器不準確、資料干擾、輸入錯誤等
  • 影響: 影響資料的準確性和可靠性,過多噪聲會導致模型性能下降

集成學習( Ensemble Learning )

結合多個基本機器學習模型的預測來提高模型的性能的技術,這些模型可以是不同算法,也可以是同一算法的變種,就像是小組中大家都會有各自擅長的方面,小組整體就能補足每個人的弱項,多個模型的結合一樣可以彌補單一模型的弱點,來獲得更好的整體性能

Bagging (Bootstrap Aggregating)

通過從訓練資料中隨機抽取多個子樣本,然後分別使用這些子樣本來訓練多個分類器(也可以是迴歸器),最後通過對分類器的預測結果進行投票或平均來獲得最終預測( Random Forests 就是 Bagging 方法的例子)

https://ithelp.ithome.com.tw/upload/images/20230929/20163317eazjND8mqn.png

優缺點

優點

  1. 減少模型的 Overfitting,提高泛化性能
  2. 結合多個模型的預測,提高最終預測的準確性
  3. 對資料中的噪聲相對不敏感,提高模型的穩定性

缺點

  1. 計算成本高,需要額外的計算成本和時間
  2. 如果基本模型之間高度相關,效益會減少
  3. 不容易解釋最終模型

Boosting

將多個弱學習機(性能略優於隨機猜測的分類器)組合成一個強大的分類器,通過不斷調整樣本的權重,讓新的分類器更加關注之前錯誤分類的樣本,以迭代的方式不斷改進模型,特別關注之前的錯誤,以提高預測性能

https://ithelp.ithome.com.tw/upload/images/20230929/20163317KeyV9rbDBM.png

優缺點

優點

  1. 能夠生成高度準確的模型
  2. 有助於降低模型的偏差,特別適用於處理複雜資料
  3. 自動調整模型改進錯誤的預測

缺點

  1. 對噪聲和異常值較敏感,可能會 Overfitting
  2. 計算成本高,需要大量計算
  3. 模型解釋性較差,不好理解內部運作
  4. 需要調整多個參數

參考資料

https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-ensemble-learning%E4%B9%8Bbagging-boosting%E5%92%8Cadaboost-af031229ebc3
https://easyaitech.medium.com/%E4%B8%80%E6%96%87%E7%9C%8B%E6%87%82%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0-%E8%AF%A6%E8%A7%A3-bagging-boosting-%E4%BB%A5%E5%8F%8A%E4%BB%96%E4%BB%AC%E7%9A%84-4-%E7%82%B9%E5%8C%BA%E5%88%AB-6e3c72df05b8


上一篇
重啟旅程~非監督式學習介紹
下一篇
物以類聚~k-平均演算法
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言