【Day 15】How Google does Machine Leaning(Inclusive ML-3)

11th鐵人賽

1004 瀏覽

前言

竟然有三個人訂閱...，內容這麼多水感覺有點愧疚。

這章節進一步把Confusion matrix的數值進行計算後，變成更容易根據數值大小反映出好壞的進階數據。

False positive rate(α)
Type 1 Error Rate，計算公式為 $FP/(FP+TN)$ ，也就是模型將隱性誤判為顯性的資料數除以所有隱性資料數，這比例越高代表模型越容易將隱性誤判為顯性。
False negative rate(β)
Type 2 Error Rate，計算公式為 $FN/(FN+TP)$ ，也就是模型將顯性誤判為隱性的資料數除以所有顯性資料數，這比例越高代表模型越容易將顯性誤判為隱性。
Recall
True Positive Rate，計算公式為 $TP/(TP+FN)$ ，也就是模型將顯性正確檢測出來的資料數除以所有顯性資料數，雖然一般常使用Recall這個名稱，但True Positive Rate更容易了解此數值的意義，也比較不會跟另一項數值搞混。
Accuracy
此數值是最常被使用到的度量之一，計算公式為 $(TP+TN)/ALL$ ，利用此數值可以很清楚了解模型正確判別的比例有多少，當分類問題中並沒有偏向哪個標籤為顯性目標時，此數值通常就是被用來代表模型的表現好壞的度量。
Precision
此數值的公式邏輯就與上面的想法不太一樣，計算公式為 $TP/(TP+FP)$ ，如果硬記中文或公式，往往會和其它Positive相關的式子搞混，這公式的分母是被模型檢測為顯性的資料，白話文就是"在所有模型檢測為顯性的資料中，是真正顯性資料的比例"，藉此度量數值能夠作為模型檢測出來顯性結果的信心水準參考。