iT邦幫忙

2025 iThome 鐵人賽

DAY 20
0

在之前的文章中,我們已經完成了模型的訓練。現在,我們需要評估模型的效能,確保它能準確地完成任務。評估一個分類模型通常會用到以下四個核心指標:精確率 (Precision)召回率 (Recall)F1 分數 (F1-Score) 以及 準確率 (Accuracy)

這些指標的計算都基於一個重要的工具:混淆矩陣 (Confusion Matrix)。混淆矩陣能夠清楚地呈現模型分類結果的四種情況:

  • 真陽性 (TP - True Positive):模型正確地將正面案例預測為正面。
  • 假陰性 (FN - False Negative):模型錯誤地將正面案例預測為負面(漏判)。
  • 假陽性 (FP - False Positive):模型錯誤地將負面案例預測為正面(誤判)。
  • 真陰性 (TN - True Negative):模型正確地將負面案例預測為負面。

https://ithelp.ithome.com.tw/upload/images/20250909/20169646Yq5Hiasb17.png
Confusion Matrix [Image by Indhumathy Chelliah]


1. 準確率 (Accuracy)

準確率是最直觀的指標,代表所有預測正確的樣本佔總樣本數的比例。

https://ithelp.ithome.com.tw/upload/images/20250910/20169646y0LRhK7NYG.png

什麼時候用?
當你的資料集非常平衡,也就是不同類別的樣本數量差不多時,準確率是一個很好的參考指標。
然而,如果資料不平衡,準確率可能會產生誤導。例如,在一個有 99% 負面評論的資料集中,一個總是預測「負面」的模型,其準確率也能高達 99%,但這個模型其實毫無價值。


2. 精確率 (Precision)

精確率代表在所有被模型預測為正面的樣本中,有多少是真正正確的。它衡量的是模型「不誤報」的能力。

https://ithelp.ithome.com.tw/upload/images/20250910/201696462K9971XVzb.png

什麼時候用?
當誤判 (FP) 的成本很高時,精確率特別重要。
例如,在一個垃圾郵件分類器中,我們希望被標記為垃圾郵件的信件都是真正的垃圾郵件,以免誤刪重要郵件。


3. 召回率 (Recall)

召回率代表在所有真實為正面的樣本中,有多少被模型成功預測出來。它衡量的是模型「不漏判」的能力。

https://ithelp.ithome.com.tw/upload/images/20250910/20169646Lias31Utq0.png

什麼時候用?
當漏判 (FN) 的成本很高時,召回率特別重要。
例如,在一個疾病診斷模型中,我們寧願多一點誤報,也不希望漏掉任何一個真正的病患。


4. F1 分數 (F1-Score)

F1 分數是精確率和召回率的調和平均數,它綜合考量了這兩個指標,提供一個更全面的單一評估分數。

https://ithelp.ithome.com.tw/upload/images/20250910/20169646S5WQRxx8CB.png

什麼時候用?
F1 分數特別適合在資料不平衡的狀況下,或當你希望同時兼顧精確率和召回率時使用。
它能避免只看單一指標所造成的偏見。


總結

在實際應用中,我們不能只看單一指標。通常需要根據專案目標,來決定精確率或召回率哪一個更重要,並透過 F1 分數來進行綜合評估。

在情感分析中,同時擁有高的精確率和召回率,代表模型既能準確地判斷情感,也不會錯過任何重要的評論。


上一篇
【Day 18】BERT模型訓練實作流程
系列文
30 天打造 App 評論洞察系統:用 AI 讓產品團隊更懂用戶20
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言