iT邦幫忙

2022 iThome 鐵人賽

DAY 13
0

於上篇實作完之後,大家是否對於自己的操作上更進一步了呢,今天我們要來繼續為大家增加小知識,希望在操作上能得心應手外,還能在道理上融會貫通,一同更上一層樓!那就開始囉~/images/emoticon/emoticon42.gif

隨機森林(Random Forest)

為一個分類器,在給定數據集的各個子集上,包括了許多決策樹,並取平均值,來提高該數據集的準確性,從以上我們可以得知,隨機森林並不依賴於一棵決策樹,而是從每棵樹中獲取預測,並基於預測的多數票,來預測最終的輸出。
它還是一種流行的機器學習演算法,屬於監督式學習的技術,可用於分類與迴歸的問題。於算法上,基於集成式學習的概念,組合多個分類器來解決較複雜的問題,並且提高模型的性能。

如何抽樣?

它抽樣的設計是採抽後放回的方式,更詳細的說,就是抽取之後的樣本,會再被芳回去,等於說同一個樣本,在下一次抽樣時,有可能被重複抽到。

執行步驟

  1. 由訓練集中,隨機選擇 K 個數據
  2. 建構與所選的數據(子集)與之相關的決策樹
  3. 將所要建構的決策樹,選擇數字 N 
  4. 重複 1 和 2 步驟
  5. 幫新數據,找到各個決策樹的預測,並將其分配給贏較多票數的類別

常用的領域

  • 在銀行業,大多使用它來識別貸款的風險
  • 在醫學上,可以憑藉它來識別疾病的趨勢與風險
  • 於土地上,可以透過它來檢視相似地土地被利用的區域
  • 於營銷中,可使用此算法看出營銷之趨勢

隨機森林的優缺點

  • 優點
  1. 分類或迴歸問題皆能執行
  2. 可處理較高維度的大型數據集
  3. 可提高了模型的準確性,並防止過擬合的問題。(森林中的樹數量越多,精度越高,下降過度擬合的風險)
  • 缺點
  1. 它雖可用於分類和回歸任務,但其實並不更適合解決迴歸問題

今天就先到這裡囉~而我們明日就會再次見到它啦,bye~/images/emoticon/emoticon29.gif
https://ithelp.ithome.com.tw/upload/images/20220927/20151063OG6X4msDbj.png

參考資料:
Random Forest Algorithm
隨機森林(RANDOM FOREST)的底層概念、操作細節,與推薦相關資源


上一篇
〔Day12〕來做個小預測吧-Tree、Logistic Regression
下一篇
〔Day14〕機器學習的模型評估-Logistic Regression、Random Forest、Tree
系列文
一同來挖掘 0 程式的Orange!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言