iT邦幫忙

2023 iThome 鐵人賽

DAY 13
0
AI & Data

踏上AI的步伐系列 第 13

Day13 AI的主要演算法(六)-決策樹

  • 分享至 

  • xImage
  •  

今天將會講解符號學派的演算法,讓我們繼續看下去~


決策樹

決策樹基本概念

決策樹(Decision Tree)只由上而下,利用不同屬性的值,來逐漸分類的一種演算法。在決策樹中,每一個節點(node)都代表著一個屬性的決策點,每個分支(Branch)都代表著結果的輸出,每個葉子(Leaf)代表著分類結果的輸出。不同的特徵組合會有不同的結果;不同的特徵順序也會有不同的結果。

熵值的基本概念

熵值是指在決策樹中,用來決定屬性依據的一種判斷。在決策樹中,屬性的優先順序是決定決策樹效能的一個很重要的依據,因此會使用熵值來做決定。熵值又稱為亂度,指資料分割的不純度或混雜度,簡單來說就是,當用某種特徵分類時,同一類裡相同類別的比例越高則純度越高;純度越高則熵值越低。

決策樹的訓練步驟

1.選出所有重要相關的特徵。
2.將所有樣本看成一個節點。
3.利用熵值的計算,找出一個最有區別能力,純度最高、熵值最低的屬性當作一個內部分割節點。
4.將決策樹分為N1與N2兩個Subtree
5.對N1跟N2執行(3)值到達到最後的分類結果為止

決策樹的優點

  • 可解釋性及可視化:決策樹透過分支、節點可以很清楚的看到演算法是如何做分類。
  • 穩健性:數據樣本若有異常、錯誤、遺失等等,都不會影響到決策樹。
  • 泛用性:各種不同類型、維度的數據都可以有效處理。
  • 容易性:不需太多樣本,也不用預先處理數據。
  • 了解重要特徵:使用熵值計算,可以計算特徵的重要性。

決策樹缺點

  • 樣本不平衡:樣本少的類別,熵值會受到影響,可能會出現決策樹不平衡。
  • 地區最佳化:每棵樹的特性不同,無法保證演算出來得結果會是最佳解。
  • 過度擬合:當決策樹太大,樣本、維度太多可能會造成此問題。有以下幾種做法可以改善:1.規定樹的深度 2.輸入最低閥值 3.修剪決策樹

參考資料
人工智慧-概念應用與管理 林東清 著


上一篇
Day12 AI的主要演算法(五)-支持向量機
下一篇
Day14 AI的主要演算法(七)-集成學習法
系列文
踏上AI的步伐30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言