2024 iThome 鐵人賽

DAY 12

AI/ ML & Data

從0開始認識AI系列第 12 篇

Day12- 決策樹模型及其應用

16th鐵人賽

samlin961112

2024-08-13 17:09:11

296 瀏覽

分享至

Day12- 決策樹模型及其應用

何謂決策樹模型

決策樹模型是一種常見且直觀的機器學習演算法，用於分類和回歸分析。其結構如同樹狀，由節點和分支組成，每個節點代表一個特徵或屬性，分支則代表根據該特徵的不同值所做出的選擇。最終的葉節點表示分類結果或預測值。決策樹的優點在於其高可解釋性和簡單明了的決策過程。

20Questions遊戲http://20q.net/

20Questions遊戲是一個典型的利用決策樹原理的例子。遊戲的目的是讓電腦在20個問題內猜出玩家心中所想的事物。這個過程可以類比於決策樹的運作方式：

20Q.NET遊戲目的：玩家心中想著一個物品，然後回答電腦提出的問題。
人工智慧模型提問：電腦根據玩家的回答，選擇下一個最有可能區分物品的問題。
20個問題內猜測：通過一系列的二元問題，電腦逐步縮小可能的選項範圍，最終猜出玩家心中的物品。

這個過程中，每個問題相當於決策樹的一個節點，而每個回答則是該節點的分支。隨著問題的不斷提出，樹的深度增加，最終導致對物品的正確分類。

決策樹在刑事鑑識中的應用

決策樹在刑事鑑識中的應用與其在20Questions遊戲中的運作相似。警方和鑑識人員在調查過程中，會根據不同的線索逐步縮小嫌疑範圍，這與決策樹根據特徵逐步分割資料的方式類似。

警察與鑑識人員的搜索行為：他們會從現場獲得初步線索，然後根據這些線索逐步排除不相關的嫌疑人或假設。
根據線索做出決斷的重要性：每個新的線索相當於決策樹中的一個新特徵，這些特徵幫助鑑識人員進一步分類和篩選嫌疑人。

決策樹的特徵切割過程

決策樹的核心在於其特徵切割過程，即利用特徵將資料分割成不同的組別，直到每個組別內的資料都屬於同一類別：

利用特徵A切割資料：初始節點根據某個特徵A（如打工時數）將資料分成多個組。
重複尋找新特徵切割：對每個新分組，重複尋找新的特徵進行切割，直到所有資料都歸屬於一個類別。
持續切割直到同一類別：這樣的分割過程不斷重複，最終形成一個完整的決策樹。

決策樹演算法中的不純度概念

在決策樹中，不純度（Impurity）是用來衡量數據混合程度的概念。常見的不純度指標包括基尼係數和熵。決策樹通過選擇能最大程度減少不純度的特徵進行切割，來提高分類的準確性。

區分能力的重要性：選擇區分能力強的特徵，有助於更精確地分割資料。
不純度的意義和用途：減少不純度意味著提高分類的純度，即每個葉節點內的資料屬於同一類別。
單純性對於子群資料的重要性：子群內資料越單純，分類效果越好。

決策樹用於資料分類的應用實例

以分析打工時數與購買車輛的關係為例，決策樹能有效區分不同年齡段和打工時數的資料，並預測購車的可能性：

統計發現：例如，統計顯示20歲以下男生的打工時數與購車行為無關，而超過20歲的男生中，打工時數與購車行為有顯著相關性。
使用年齡區分後計算Information Gain：通過年齡這一特徵將資料切割，計算信息增益，以此決定最佳的切割點。

決策樹的邏輯結構

決策樹使用if-then結構來進行資料分類，非常適合處理離散資料：

打工時數高的人會購買：如果某個人打工時數高，那麼他購車的可能性較高。
大於20歲的男性會購買：如果某個人年齡大於20歲，並且打工時數高，他購車的可能性很高。
處理離散資料：決策樹適用於處理離散的特徵，對於連續數字，則需要事先將其轉化為離散的類別。

Day 11 - 模型的評估

Day13- 強化你的決策樹

系列文

從0開始認識AI 共 30 篇

RSS系列文訂閱系列文

5 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22203 篇

完賽人數

602 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

從0開始認識AI系列 第 12 篇