iT邦幫忙

2023 iThome 鐵人賽

DAY 12
0

昨天八點多睡,今天今神飽滿,終於筆者的每日日記回來了在這裡寫日記也不太對就是了,今天的標題有私心,這是一部我蠻喜歡的音樂劇,大家應該也看過,有被改編成電影(魔法黑森林),雖然我沒看過電影版,但音樂劇版本很好看(好聽),這邊偷偷安利一下。


隨機森林(Random Forest)

隨機森林由多個決策樹組成,每棵樹都是根據不同的隨機樣本和特徵訓練而成
每個決策樹都是一個弱學習器,可能容易 Overfitting 訓練資料,但當它們組合在一起,通過多數決(分類問題)或平均(迴歸問題)來獲得最終預測,變成強大的集成模型
隨機森林通常用於分類和迴歸問題

隨機抽樣資料集

隨機森林中的每個決策樹都是不同的隨機抽樣資料集訓練而成的
這種隨機抽樣稱為自助抽樣( Bootstrap Sampling ),代表每個決策樹的訓練集可以包含重複的樣本
這樣隨機性確保了每棵樹都有獨立性,減少了 Overfitting 的風險

調參

  • 樹的數量(n_estimators) 增加樹的數量可以提高模型性能,也會增加計算成本
  • 樹的深度(max_depth) 限制樹的深度可以防止 Overfitting,可以通過交叉驗證來找適合的深度
  • 最小葉節點數(min_samples_leaf) 設最小葉節點數也可以防止 Overfitting ,可以使模型更穩定,但可能降低模型的靈敏度
  • 特徵選擇 隨機森林本身對特徵選擇是相對好的,通過分析特徵重要性,刪除不重要的特徵來簡化模型
  • 其他參數 還有其他參數,如分割標準(criterion)、最小節點分割所需的最小樣本數(min_samples_split)等

隨機森林的優缺點

優點

  • 優秀的預測性能,尤其是在分類和迴歸問題,改善模型的泛化能力
  • 隨機森林的隨機性特徵和隨機抽樣可以減少 Overfitting
  • 能夠有效處理高維度資料,並且不需要太多的特徵工程
  • 可以提供特徵重要性評估,有助於特徵選擇和解釋模型
  • 能夠有效處理類別不平衡的資料,產生平衡的預測結果

缺點

  • 包含多個決策樹,模型的結構變得複雜,很難解釋模型的預測過程
  • 由多個決策樹組成,訓練和預測的計算成本較高

上一篇
樹下休息~決策樹
下一篇
重啟旅程~非監督式學習介紹
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言