於上篇實作完之後,大家是否對於自己的操作上更進一步了呢,今天我們要來繼續為大家增加小知識,希望在操作上能得心應手外,還能在道理上融會貫通,一同更上一層樓!那就開始囉~
為一個分類器,在給定數據集的各個子集上,包括了許多決策樹,並取平均值,來提高該數據集的準確性,從以上我們可以得知,隨機森林並不依賴於一棵決策樹,而是從每棵樹中獲取預測,並基於預測的多數票,來預測最終的輸出。
它還是一種流行的機器學習演算法,屬於監督式學習的技術,可用於分類與迴歸的問題。於算法上,基於集成式學習的概念,組合多個分類器來解決較複雜的問題,並且提高模型的性能。
它抽樣的設計是採抽後放回的方式,更詳細的說,就是抽取之後的樣本,會再被芳回去,等於說同一個樣本,在下一次抽樣時,有可能被重複抽到。
1. 由訓練集中,隨機選擇 K 個數據
2. 建構與所選的數據(子集)與之相關的決策樹
3. 將所要建構的決策樹,選擇數字 N
4. 重複 1 和 2 步驟
5. 幫新數據,找到各個決策樹的預測,並將其分配給贏較多票數的類別
今天就先到這裡囉~而我們明日就會再次見到它啦,bye~
參考資料:
Random Forest Algorithm
隨機森林(RANDOM FOREST)的底層概念、操作細節,與推薦相關資源