今明兩天我們要學習的目標:
random forest 的概念起於科學家認為「decison tree」的預估精準度已經接近 85%以上,於是發想嘗試將許多棵「decision tree」結合起來實作,精準度會不會更高,實際實作一下,沒想到效果達到預期,於是「random forest」演算法變誕生。
想像一下,你眼前有兩張圖,圖一是一棵「decision tree」,圖二是許多棵「decision tree」,很容易可以理解與分辨「一棵」與「許多棵」的計算準確度,當然是「許多棵」decison tree精準,因為它是由「許多棵」的decision tree經過平均計算出來的結果。
random forest是 集成式學習ensemble learning的一種,未「ensemble learning」,之所以會稱為「隨機」,是因為在樣本取出的過程,是採取隨機的方式。所謂的樣本取出指得是我們在day3所談的特徵X與昨日的程式碼X_train,忘記的同學,可由文章下方的連結,去翻閱一下之前所談的。意思就是從datsets 取出來的train sets測試資料集。ensemble learning未來我們還會詳談。