今天將會講解符號學派的演算法,讓我們繼續看下去~
決策樹(Decision Tree)只由上而下,利用不同屬性的值,來逐漸分類的一種演算法。在決策樹中,每一個節點(node)都代表著一個屬性的決策點,每個分支(Branch)都代表著結果的輸出,每個葉子(Leaf)代表著分類結果的輸出。不同的特徵組合會有不同的結果;不同的特徵順序也會有不同的結果。
熵值是指在決策樹中,用來決定屬性依據的一種判斷。在決策樹中,屬性的優先順序是決定決策樹效能的一個很重要的依據,因此會使用熵值來做決定。熵值又稱為亂度,指資料分割的不純度或混雜度,簡單來說就是,當用某種特徵分類時,同一類裡相同類別的比例越高則純度越高;純度越高則熵值越低。
1.選出所有重要相關的特徵。
2.將所有樣本看成一個節點。
3.利用熵值的計算,找出一個最有區別能力,純度最高、熵值最低的屬性當作一個內部分割節點。
4.將決策樹分為N1與N2兩個Subtree
5.對N1跟N2執行(3)值到達到最後的分類結果為止
參考資料
人工智慧-概念應用與管理 林東清 著