iT邦幫忙

2025 iThome 鐵人賽

DAY 17
0
AI & Data

30 天了解 AI & Data:入門到實作系列 第 17

【DAY17】機器學習:集成學習(Ensemble Learning)

  • 分享至 

  • xImage
  •  

前言

昨天我們學習了單一模型(例如邏輯迴歸、決策樹)的建立方式,但在實際應用中,單一模型的表現有時不夠穩定。這時候,我們就可以透過「集成學習」將多個模型結合起來,讓整體表現更好,就像團隊合作一樣,比單打獨鬥更有勝算。


一、什麼是集成學習

集成學習是一種機器學習方法,透過結合多個模型來形成一個更強大的預測器。它的核心概念是「三個臭皮匠勝過一個諸葛亮」──不同模型各自有優缺點,但把它們的結果整合起來,往往能比單一模型更穩定、更準確。

二、主要方法

  1. Bagging(Bootstrap Aggregating)

做法:從資料集中隨機抽樣(可重複),訓練多個模型,再透過投票或平均來決定最終結果。

特點:降低 變異性(variance),讓模型更穩定。

代表:隨機森林(Random Forest)。

  1. Boosting

做法:模型是「一個接一個」訓練的,後面的模型會特別關注前面分類錯誤的樣本。

特點:降低 偏差(bias),逐步提升準確度。

代表:AdaBoost、Gradient Boosting、XGBoost、LightGBM。

  1. Stacking(堆疊)

做法:同時訓練多個不同模型,然後用另一個「元模型(meta model)」來綜合這些模型的預測結果。

特點:能善用不同模型的優點,通常效果最好,但也最複雜。

三、生活化例子

假設你要買一支新手機:

你問 A 朋友(喜歡拍照),他推薦某牌子。

你問 B 朋友(重視遊戲),他推薦另一個牌子。

你問 C 朋友(追求續航),他有不同選擇。

最後,你綜合大家的意見,做出最適合的決定。這就是集成學習的概念。


小結

集成學習透過結合多個模型,達到比單一模型更佳的預測效果。常見方法有 Bagging、Boosting 和 Stacking。後續我們可以挑一個方法(例如隨機森林或 XGBoost)來實作,看看集成學習在真實資料上的威力。


上一篇
【DAY16】監督式學習:隨機森林 (Random forest)
系列文
30 天了解 AI & Data:入門到實作17
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言