講人話就是利用特徵與分類結果之間的關係,藉由歷史資料建構出一棵「如果這樣就那樣」的樹,成為一個讓不同特徵落入對應的適當分類模型。
決策樹主要分為兩大類:
-迴歸樹:用來預測實際的值,輸出為定量的,像是溫度、年齡之類的等等......
-分類樹:用來分類標籤,是最常見的決策樹,輸出為定性的,像是天氣是陰天還是晴天、性別是男還是女之類的等等......
決策樹的建構步驟:
1.特徵選擇:找出對我們做決策有影響的事物(特徵),常用ID3算法求得信息增益,若是想求得信息增益比則是使用C4.5算法。
2.決策樹生成:經過計算完特徵值後,找出最合適的根節點及分枝,達到局部最優化。
3.決策樹剪枝:防止決策樹「過擬合」,提高泛用性,就像剪掉一棵樹多餘的分枝,達到整體最優化。
CART(Classification and Regression Tree):可以用於分類跟迴歸問題。