2023 iThome 鐵人賽

DAY 12

AI & Data

機器學習新手行，相信你也行！系列第 12 篇

Into The Woods~隨機森林

15th鐵人賽學習筆記

rubylin

團隊好想放假大學

2023-09-27 10:01:00

339 瀏覽

分享至

昨天八點多睡，今天今神飽滿，終於筆者的每日日記回來了~~在這裡寫日記也不太對就是了~~，今天的標題有私心，這是一部我蠻喜歡的音樂劇，大家應該也看過，有被改編成電影(魔法黑森林)，雖然我沒看過電影版，但音樂劇版本很好看(好聽)，這邊偷偷安利一下。

隨機森林（Random Forest）

隨機森林由多個決策樹組成，每棵樹都是根據不同的隨機樣本和特徵訓練而成
每個決策樹都是一個弱學習器，可能容易 Overfitting 訓練資料，但當它們組合在一起，通過多數決（分類問題）或平均（迴歸問題）來獲得最終預測，變成強大的集成模型
隨機森林通常用於分類和迴歸問題

隨機抽樣資料集

隨機森林中的每個決策樹都是不同的隨機抽樣資料集訓練而成的
這種隨機抽樣稱為自助抽樣（ Bootstrap Sampling ），代表每個決策樹的訓練集可以包含重複的樣本
這樣隨機性確保了每棵樹都有獨立性，減少了 Overfitting 的風險

調參

樹的數量（n_estimators） 增加樹的數量可以提高模型性能，也會增加計算成本
樹的深度（max_depth） 限制樹的深度可以防止 Overfitting，可以通過交叉驗證來找適合的深度
最小葉節點數（min_samples_leaf） 設最小葉節點數也可以防止 Overfitting ，可以使模型更穩定，但可能降低模型的靈敏度
特徵選擇 隨機森林本身對特徵選擇是相對好的，通過分析特徵重要性，刪除不重要的特徵來簡化模型
其他參數 還有其他參數，如分割標準（criterion）、最小節點分割所需的最小樣本數（min_samples_split）等

隨機森林的優缺點

優點

優秀的預測性能，尤其是在分類和迴歸問題，改善模型的泛化能力
隨機森林的隨機性特徵和隨機抽樣可以減少 Overfitting
能夠有效處理高維度資料，並且不需要太多的特徵工程
可以提供特徵重要性評估，有助於特徵選擇和解釋模型
能夠有效處理類別不平衡的資料，產生平衡的預測結果

缺點

包含多個決策樹，模型的結構變得複雜，很難解釋模型的預測過程
由多個決策樹組成，訓練和預測的計算成本較高

樹下休息~決策樹

重啟旅程~非監督式學習介紹

系列文

機器學習新手行，相信你也行！共 30 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22209 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

機器學習新手行，相信你也行！系列 第 12 篇