iT邦幫忙

2024 iThome 鐵人賽

DAY 12
1
AI/ ML & Data

從0開始認識AI系列 第 12

Day12- 決策樹模型及其應用

  • 分享至 

  • xImage
  •  

Day12- 決策樹模型及其應用

何謂決策樹模型

決策樹模型是一種常見且直觀的機器學習演算法,用於分類和回歸分析。其結構如同樹狀,由節點和分支組成,每個節點代表一個特徵或屬性,分支則代表根據該特徵的不同值所做出的選擇。最終的葉節點表示分類結果或預測值。決策樹的優點在於其高可解釋性和簡單明了的決策過程。

20Questions遊戲http://20q.net/

20Questions遊戲是一個典型的利用決策樹原理的例子。遊戲的目的是讓電腦在20個問題內猜出玩家心中所想的事物。這個過程可以類比於決策樹的運作方式:

  1. 20Q.NET遊戲目的:玩家心中想著一個物品,然後回答電腦提出的問題。
  2. 人工智慧模型提問:電腦根據玩家的回答,選擇下一個最有可能區分物品的問題。
  3. 20個問題內猜測:通過一系列的二元問題,電腦逐步縮小可能的選項範圍,最終猜出玩家心中的物品。

這個過程中,每個問題相當於決策樹的一個節點,而每個回答則是該節點的分支。隨著問題的不斷提出,樹的深度增加,最終導致對物品的正確分類。

決策樹在刑事鑑識中的應用

決策樹在刑事鑑識中的應用與其在20Questions遊戲中的運作相似。警方和鑑識人員在調查過程中,會根據不同的線索逐步縮小嫌疑範圍,這與決策樹根據特徵逐步分割資料的方式類似。

  1. 警察與鑑識人員的搜索行為:他們會從現場獲得初步線索,然後根據這些線索逐步排除不相關的嫌疑人或假設。
  2. 根據線索做出決斷的重要性:每個新的線索相當於決策樹中的一個新特徵,這些特徵幫助鑑識人員進一步分類和篩選嫌疑人。

決策樹的特徵切割過程

決策樹的核心在於其特徵切割過程,即利用特徵將資料分割成不同的組別,直到每個組別內的資料都屬於同一類別:

  1. 利用特徵A切割資料:初始節點根據某個特徵A(如打工時數)將資料分成多個組。
  2. 重複尋找新特徵切割:對每個新分組,重複尋找新的特徵進行切割,直到所有資料都歸屬於一個類別。
  3. 持續切割直到同一類別:這樣的分割過程不斷重複,最終形成一個完整的決策樹。

決策樹演算法中的不純度概念

在決策樹中,不純度(Impurity)是用來衡量數據混合程度的概念。常見的不純度指標包括基尼係數和熵。決策樹通過選擇能最大程度減少不純度的特徵進行切割,來提高分類的準確性。

  1. 區分能力的重要性:選擇區分能力強的特徵,有助於更精確地分割資料。
  2. 不純度的意義和用途:減少不純度意味著提高分類的純度,即每個葉節點內的資料屬於同一類別。
  3. 單純性對於子群資料的重要性:子群內資料越單純,分類效果越好。

決策樹用於資料分類的應用實例

以分析打工時數與購買車輛的關係為例,決策樹能有效區分不同年齡段和打工時數的資料,並預測購車的可能性:

  1. 統計發現:例如,統計顯示20歲以下男生的打工時數與購車行為無關,而超過20歲的男生中,打工時數與購車行為有顯著相關性。
  2. 使用年齡區分後計算Information Gain:通過年齡這一特徵將資料切割,計算信息增益,以此決定最佳的切割點。

決策樹的邏輯結構

決策樹使用if-then結構來進行資料分類,非常適合處理離散資料:

  1. 打工時數高的人會購買:如果某個人打工時數高,那麼他購車的可能性較高。
  2. 大於20歲的男性會購買:如果某個人年齡大於20歲,並且打工時數高,他購車的可能性很高。
  3. 處理離散資料:決策樹適用於處理離散的特徵,對於連續數字,則需要事先將其轉化為離散的類別。

上一篇
Day 11 - 模型的評估
下一篇
Day13- 強化你的決策樹
系列文
從0開始認識AI30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言