前言
昨天我們學習了單一模型(例如邏輯迴歸、決策樹)的建立方式,但在實際應用中,單一模型的表現有時不夠穩定。這時候,我們就可以透過「集成學習」將多個模型結合起來,讓整體表現更好,就像團隊合作一樣,比單打獨鬥更有勝算。
一、什麼是集成學習
集成學習是一種機器學習方法,透過結合多個模型來形成一個更強大的預測器。它的核心概念是「三個臭皮匠勝過一個諸葛亮」──不同模型各自有優缺點,但把它們的結果整合起來,往往能比單一模型更穩定、更準確。
二、主要方法
做法:從資料集中隨機抽樣(可重複),訓練多個模型,再透過投票或平均來決定最終結果。
特點:降低 變異性(variance),讓模型更穩定。
代表:隨機森林(Random Forest)。
做法:模型是「一個接一個」訓練的,後面的模型會特別關注前面分類錯誤的樣本。
特點:降低 偏差(bias),逐步提升準確度。
代表:AdaBoost、Gradient Boosting、XGBoost、LightGBM。
做法:同時訓練多個不同模型,然後用另一個「元模型(meta model)」來綜合這些模型的預測結果。
特點:能善用不同模型的優點,通常效果最好,但也最複雜。
三、生活化例子
假設你要買一支新手機:
你問 A 朋友(喜歡拍照),他推薦某牌子。
你問 B 朋友(重視遊戲),他推薦另一個牌子。
你問 C 朋友(追求續航),他有不同選擇。
最後,你綜合大家的意見,做出最適合的決定。這就是集成學習的概念。
小結
集成學習透過結合多個模型,達到比單一模型更佳的預測效果。常見方法有 Bagging、Boosting 和 Stacking。後續我們可以挑一個方法(例如隨機森林或 XGBoost)來實作,看看集成學習在真實資料上的威力。