【Day 4】評斷 Machine Learning Model 的統計工具

第 11 屆 iThome 鐵人賽

DAY 4

Google Developers Machine Learning

Machine Learning 初體驗 (Google Developers ML)系列第 4 篇

11th鐵人賽

TTTT

2019-09-05 22:27:36

5102 瀏覽

分享至

想要看你的模型是好是壞, 我們不能僅從 準確率 來評斷，這邊介紹一個常用的工具來幫助大家評斷你的模型: Confusion matrix

有很多評斷模型的概念和這類似，就讓我們一起來搞懂它吧～

Confusion matrix : Evaluate your model

我們以例子來說明大家比較好來理解，今天我們有一套 AI 來判斷你有沒有病，那麼判斷的狀況就有以下四種可能:

True Positive : 你有病，AI 也判你有病
False Positive : 你有病，但 AI 判你沒病，又稱 Type 1 error
False Negative : 你沒病，但 AI 判你有病，又稱 Type 2 error
True Negative : 你沒病，AI 也判你沒病

想當然， True Positive 和 True Negative 是多多益善，但我們也不能輕忽 False Positive 及 False Negative 的重要性，這兩項 Error 往往就是讓我們 Model 能有更好表現的關鍵。

那這兩項 Error 我們該如何斟酌呢? 就拿我們上面看病的例子來說好了，當然是修正 Type 1 Error 才是最要緊的，哪天我死了，我一定恨死這套 AI。但如果今天情境是手機的指紋辨識呢，我當然不希望 Type 2 Error 的發生，不然我裡面的資料就被你看光了。從上面兩個比喻我們知道，究竟要修正 Type 1 Error 還是 Type 2 Error 真的是 Case by Case，必須依你的目標來做取捨。

Statistical Measurements

那接下來我們就來用上述的概念，來去算出我們統計數值，這邊介紹以下項常看到的數值:

Sensitivity : 是量化避免假陰性的判斷指標，可以想成找出多少病人真的有病，又被稱為 Recall
Specificity : 是量化避免假陽性的判斷指標，可以想成找出多少健康人不被判成有病
Accuracy : 這是最常且最直接的評斷方式，想成正確的結果到底占多少
Precision : 有時 Accuracy 可能不是最好的判斷方式，就是當我們 Positive 的可能性很少時，例如今天一套 AI 來猜大樂透，這時如果我們把 True Negative 拉高，不管甚麼數字我都判你不中，那它的 Accuracy 就達 99 那麼高，但實際做出的卻是一個垃圾玩具而已