【DAY17】機器學習:集成學習（Ensemble Learning）

2025 iThome 鐵人賽

DAY 17

AI & Data

30 天了解 AI & Data：入門到實作系列第 17 篇

17th鐵人賽集成學習

急速行駛

2025-10-01 21:22:53

116 瀏覽

分享至

前言

昨天我們學習了單一模型（例如邏輯迴歸、決策樹）的建立方式，但在實際應用中，單一模型的表現有時不夠穩定。這時候，我們就可以透過「集成學習」將多個模型結合起來，讓整體表現更好，就像團隊合作一樣，比單打獨鬥更有勝算。

一、什麼是集成學習

集成學習是一種機器學習方法，透過結合多個模型來形成一個更強大的預測器。它的核心概念是「三個臭皮匠勝過一個諸葛亮」──不同模型各自有優缺點，但把它們的結果整合起來，往往能比單一模型更穩定、更準確。

二、主要方法

Bagging（Bootstrap Aggregating）

做法：從資料集中隨機抽樣（可重複），訓練多個模型，再透過投票或平均來決定最終結果。

特點：降低變異性（variance），讓模型更穩定。

代表：隨機森林（Random Forest）。

Boosting

做法：模型是「一個接一個」訓練的，後面的模型會特別關注前面分類錯誤的樣本。

特點：降低偏差（bias），逐步提升準確度。

代表：AdaBoost、Gradient Boosting、XGBoost、LightGBM。

Stacking（堆疊）

做法：同時訓練多個不同模型，然後用另一個「元模型（meta model）」來綜合這些模型的預測結果。

特點：能善用不同模型的優點，通常效果最好，但也最複雜。

三、生活化例子

假設你要買一支新手機：

你問 A 朋友（喜歡拍照），他推薦某牌子。

你問 B 朋友（重視遊戲），他推薦另一個牌子。

你問 C 朋友（追求續航），他有不同選擇。

最後，你綜合大家的意見，做出最適合的決定。這就是集成學習的概念。

小結

集成學習透過結合多個模型，達到比單一模型更佳的預測效果。常見方法有 Bagging、Boosting 和 Stacking。後續我們可以挑一個方法（例如隨機森林或 XGBoost）來實作，看看集成學習在真實資料上的威力。

【DAY16】監督式學習：隨機森林 (Random forest)

系列文

30 天了解 AI & Data：入門到實作共 17 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

30 天了解 AI & Data：入門到實作系列 第 17 篇