昨天八點多睡,今天今神飽滿,終於筆者的每日日記回來了在這裡寫日記也不太對就是了,今天的標題有私心,這是一部我蠻喜歡的音樂劇,大家應該也看過,有被改編成電影(魔法黑森林),雖然我沒看過電影版,但音樂劇版本很好看(好聽),這邊偷偷安利一下。
隨機森林(Random Forest)
隨機森林由多個決策樹組成,每棵樹都是根據不同的隨機樣本和特徵訓練而成
每個決策樹都是一個弱學習器,可能容易 Overfitting 訓練資料,但當它們組合在一起,通過多數決(分類問題)或平均(迴歸問題)來獲得最終預測,變成強大的集成模型
隨機森林通常用於分類和迴歸問題
隨機抽樣資料集
隨機森林中的每個決策樹都是不同的隨機抽樣資料集訓練而成的
這種隨機抽樣稱為自助抽樣( Bootstrap Sampling ),代表每個決策樹的訓練集可以包含重複的樣本
這樣隨機性確保了每棵樹都有獨立性,減少了 Overfitting 的風險
調參
-
樹的數量(n_estimators) 增加樹的數量可以提高模型性能,也會增加計算成本
-
樹的深度(max_depth) 限制樹的深度可以防止 Overfitting,可以通過交叉驗證來找適合的深度
-
最小葉節點數(min_samples_leaf) 設最小葉節點數也可以防止 Overfitting ,可以使模型更穩定,但可能降低模型的靈敏度
-
特徵選擇 隨機森林本身對特徵選擇是相對好的,通過分析特徵重要性,刪除不重要的特徵來簡化模型
-
其他參數 還有其他參數,如分割標準(criterion)、最小節點分割所需的最小樣本數(min_samples_split)等
隨機森林的優缺點
優點
- 優秀的預測性能,尤其是在分類和迴歸問題,改善模型的泛化能力
- 隨機森林的隨機性特徵和隨機抽樣可以減少 Overfitting
- 能夠有效處理高維度資料,並且不需要太多的特徵工程
- 可以提供特徵重要性評估,有助於特徵選擇和解釋模型
- 能夠有效處理類別不平衡的資料,產生平衡的預測結果
缺點
- 包含多個決策樹,模型的結構變得複雜,很難解釋模型的預測過程
- 由多個決策樹組成,訓練和預測的計算成本較高