iT邦幫忙

2022 iThome 鐵人賽

DAY 9
0

今日大綱

  • 什麼是決策樹
  • 熵 (Entropy)與資訊增益 (Information gain)
  • 基尼不純度 (Gini impurity)
  • 優缺點
  • 範例

什麼是決策樹?

決策樹有點類似演算法Divide and conquer,將一個問題分割成數個小問題,依照規則對資料進行遞迴分割。隨著深度不斷的增加,資料雜亂的程度就會越低。如果分割後的資料的標籤幾乎都相同,代表不純度較低;反之,如果資料的標籤都不太一樣,那不純度較高。
決策樹與SVM一樣可以用於迴歸問題與分類問題,有三個常見的模型ID3、C4.5與CART。ID3 是最原始的決策樹,利用資訊增益產生決策樹,而C4.5是ID3的改版,使用資訊增益率決定,最後CART則是使用基尼不純度決定模型。

熵 (Entropy)與資訊增益 (Information gain)

https://ithelp.ithome.com.tw/upload/images/20220922/20145688i0QgN6rVxT.png
使用某個特徵A劃分資料集D,計算劃分後資料子集的熵為 H(D|A)
https://ithelp.ithome.com.tw/upload/images/20220922/20145688LD01LMIme1.png
資訊增益 (Information gain)為
https://ithelp.ithome.com.tw/upload/images/20220922/20145688IuMq3f6yh7.png

基尼不純度 (Gini impurity)

https://ithelp.ithome.com.tw/upload/images/20220923/20145688cISm27q8EH.png

優缺點

優點

  • 易了解,能夠知道每個切點的特徵值
  • 對於缺失值 (missing value)不敏感,不易受影響
  • 可以處理不相關特徵資料
  • 能夠處理類別變數與連續變數

缺點

  • 容易出現過度擬合 (over-fitting)的情況
  • 類別太多時,錯誤可能增加得也快
  • 處理特徵相關性較高的資料時表現得不太好

範例

下圖為範例,獨立變數為天氣與距離,目標變數為要不要去上課。依照天氣與距離決定是否要去上課。
https://ithelp.ithome.com.tw/upload/images/20220923/20145688p5hRbgJ8h4.png

以資訊增益產生決策樹

https://ithelp.ithome.com.tw/upload/images/20220923/20145688QzPVlMp30E.png
距離所得的資訊增益較大,因此選擇距離當第一個切點

以Gini impurity產生決策樹

https://ithelp.ithome.com.tw/upload/images/20221022/20145688xyBhHrInQg.png
距離所得到的GINI係數較小,因此選擇距離當作第一個切點

參考資料

感謝您的瀏覽,我們明天見!
/images/emoticon/emoticon29.gif


上一篇
【Day 8】支持向量機實作 Support vector machine implementation
下一篇
【Day 10】決策樹實作 Decision tree implementation
系列文
從機器學習到深度學習 - 30天搞懂常見演算法的基礎理論30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言