iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 15
0

典型算法

https://ithelp.ithome.com.tw/upload/images/20190930/20120698VVf2a1ht4j.png

  • ID3 算法

    ID3 最早提出的決策樹算法,它就是利用信息增益來選擇特徵的。

  • C4.5 算法

    ID3 的改良算法,它不是直接使用信息增益,而是引入“信息增益比”指標作為特徵的選擇依據。

  • CART(Classification and Regression Tree)

    這種算法即可以用於分類,也可以用於回歸問題。CART 算法使用了基尼系數取代了信息熵模型。

優缺點

優點

  • 決策樹易於理解和解釋,可以可視化分析,容易提取出規則;
  • 可以同時處理標稱型和數值型數據;
  • 比較適合處理有缺失屬性的樣本;
  • 能夠處理不相關的特征;
  • 測試數據集時,運行速度比較快;
  • 在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。

缺點

  • 容易發生過擬合(隨機森林可以很大程度上減少過擬合);
  • 容易忽略數據集中屬性的相互關聯;
  • 對於那些各類別樣本數量不一致的數據,在決策樹中,進行屬性劃分時,不同的判定準則會帶來不同的屬性選擇傾向;信息增益準則對可取數目較多的屬性有所偏好(典型代表ID3算法),而增益率準則(CART)則對可取數目較少的屬性有所偏好,但CART進行屬性劃分時候不再簡單地直接利用增益率盡心劃分,而是采用一種啟發式規則)(只要是使用了信息增益,都有這個缺點,如RF)。
  • ID3算法計算信息增益時結果偏向數值比較多的特征。

上一篇
決策樹(2)
下一篇
單純貝氏分類器
系列文
30天鍊成機器學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言