iT邦幫忙

2023 iThome 鐵人賽

DAY 16
1
AI & Data

初次抓舉AI的世界系列 第 16

評估指標 D1 - Confusion Matrix

  • 分享至 

  • xImage
  •  

到目前為止,分享了一些模型學習的方法,現在要來寫些比較輕鬆的內容,來聊聊模型的評估指標
/images/emoticon/emoticon37.gif
在前面的分享中,有很多方式可以選擇要如何訓練模型,但是要怎麼知道模型是否有學好呢?
我們會需要一些特殊的規則和方式來檢查它的表現。這就是今天要討論的主題:分類模型的評估指標


首先,想像你正在玩一個辨識圖片中的動物是貓還是狗的遊戲,當看完了所有圖片,就可以看到遊戲的得分數,這時,你可能會發現回答的正確率並沒有百分之百,也就是代表有些圖片沒有選擇正確,有些辨識錯了。這就是為什麼我們需要評估指標,就像是遊戲的比分卡一樣,它可以顯示你在遊戲中表現得怎麼樣。


混淆矩陣(Confusion Matrix)

會是一個 NXN 的矩陣,N 代表了所有可能的標籤類別的數量,可以用來呈現分類模型的效果
以下用一個二分類的模型(N=2,只有兩種可能的標籤)當作例子:
https://ithelp.ithome.com.tw/upload/images/20231001/20155915UFHExrlqM8.png

  • 先解釋一下圖中的英文意義:
    • Positive:代表模型預測結果為 1(正例)
    • Negative:代表模型預測結果為 0(負例)
    • True:代表模型的預測結果正確
    • False:代表模型的預測結果錯誤
    • 真陽性(True Positive,TP):代表模型正確預測出正例
    • 假陽性(False Positive,FP):代表模型誤將負例預測為正例
      • 也被稱為 Type I error
    • 假陰性(False Negative,FN):代表模型誤將正例預測為負例
      • 也被稱為 Type II error
    • 真陰性(True Negative,TN):代表模型正確預測出負例

有了這些術語的基礎,接下來是可以基於 Confusion Matrix 算出的一些常見評估指標:

  • Accuracy:(TP + TN)/(TP + TN + FP + FN)
    • 是最常見的指標,但在分類結果分布不均的情況下,這個評估是會有缺陷,因為模型可能會傾向於猜測多數類別
  • Precision:TP/(TP + FP)
    • 在模型預測為正例的情況下,有多少把握可以預測正確
  • Sensitivity(敏感度):True positive rate = Recall = TP/(TP+ FN)
    • 在所有實際正例中,有多少比例被預測正確
  • Specificity(特異性):True negative rate = TN/(TN+ FP)
  • F-score: 會綜合考慮 recall 和 precision
    https://ithelp.ithome.com.tw/upload/images/20231001/20155915HxeHzqXmvh.png
    • F1-score: precision 和 recall 的調和平均數

這些評估指標可以幫助我們更全面地了解模型的性能,並確保不會只關注模型的準確性,還會關注其他重要的因素,像是錯誤的類型和分類結果的分布


上一篇
遷移學習 D2 - Deep Domain Confusion
下一篇
評估指標 D2 - ROC curve 與 PR Curve
系列文
初次抓舉AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言