第 11 屆 iThome 鐵人賽

DAY 10

0

Google Developers Machine Learning

Machine Learning Day30系列第 10 篇

[Day10] 評估模型指標

11th鐵人賽

2019-09-26 06:09:18

19708 瀏覽

分享至

想知道我們Training出來的模型好壞，
就要選用適當指標來評估，
通常分成「迴歸」、「分類」兩大類問題。

迴歸問題

觀察預測值 (Prediction) 和實際值 (Ground Truth) 的差距

1. MAE

MAE, Mean Absolute Error, 範圍：[0, ∞]

是絕對誤差的平均值（絕對值後所求的平均值）
能更好地反映預測值誤差的實際情況（幫助測量）
數字小於1，且越小越好
參考：什麼是平均絕對誤差、常見機器學習評估指標

2. MSE

MSE, Mean Square Error, 範圍：[0, ∞]

是各測量值誤差的平方和取平均值的平方根（均方根誤差的平方）
可以評價數據的變化程度
數學特性很好，使計算梯度變得更容易
參考：什麼是均方誤差

MAE vs MSE

參考：如何選擇回歸損失函數？
評估實際值和預測值的距離，例如「問我們預測出來的排名，距離實際的排名差了多少」

	MAE	MSE
特性	較同原資料	容易被放大
離群值	不適	適合
用途		適合商業模型
準確	數字越小	數字越小
迴歸	收斂慢，次數多	收斂快，次數少
梯形	較平	較陡

3. R-square

R-square, 範圍：[0, 1]

參考決定係數（R平方）解釋，

R平方的數學表示

R平方由下式給出

其中SSE是我們的回歸模型的誤差平方的總和

而SST是我們的基礎模型的誤差平方的總和。

最糟糕的模型

R平方= 1-1 = 0

最好的模型

R平方= 1-0 = 1

如何解釋R平方？

如果R平方= 0.93，則意味著因變量Y的93％變化由我們模型中存在的自變量解釋。

分類問題

觀察預測值 (Prediction) 和實際值 (Ground Truth) 的正確程度

1. AUC

AUC, Area Under Curve, 範圍：[0, 1]

ROC空間

让我们来看在實際有100个阳性和100个阴性的案例時，四種預測方法（可能是四種分類器，或是同一分類器的四種閾值設定）的結果差異：

將這4種结果畫在ROC空间裡：
點與随机猜测线的距離，是預測力的指標：离左上角越近的點預測（診斷）準確率越高。離右下角越近的點，预测越不準。

在A、B、C三者當中，最好的結果是A方法。
B方法的结果位於随机猜测线（對角線）上，在例子中我们可以看到B的準確度（ACC，定義見前面表格）是50%。
C方法雖然預測準確度最差，甚至劣於隨機分類，也就是低於0.5（低於對角線）。然而，当将C以 (0.5, 0.5) 為中點作一个镜像后，C'的结果甚至要比A还要好。这个作镜像的方法，简单說，不管C（或任何ROC點低於對角線的情況）预测了什么，就做相反的結論。

ROC曲線

同一個二元分類模型的閾值可能設定為高或低，每種閾值的設定會得出不同的FPR和TPR

當閾值設定為最高時，必得出ROC座標系左下角的點 (0, 0)。
當閾值設定為最低時，必得出ROC座標系右上角的點 (1, 1)。
隨著閾值調低，ROC點往右上（或右／或上）移動，或不動；但絕不會往左下(或左／或下)移動。

曲線下面積（AUC）

ROC曲線下方的面積 Area under the Curve of ROC (AUC ROC)

比較曲線下面積做為模型優劣的指標
因為是在1x1的方格裡求面積，AUC必在0~1之間。
AUC值越大的分類器，正確率越高。
- AUC = 1，是完美分類器
- 0.5 < AUC < 1，優於隨機猜測
- AUC = 0.5，跟隨機猜測一樣
- AUC < 0.5，比隨機猜測還差

2. F1-Score

F1-Score (Precision, Recall), 範圍：[0, 1] ,混淆矩陣 (Confusion Matrix) 相關

混淆矩陣 (Confusion Matrix)

參考：深度學習中、TP FP FN TN precision Recall Accuracy

True Positive（TP）：預測爲正例，實際爲正例
False Positive（FP）：預測爲正例，實際爲負例
True Negative（TN）：預測爲負例，實際爲負例
False Negative（FN）：預測爲負例，實際爲正例

F1-Score (Precision, Recall)

accuracy
>正確預測的樣本數佔總預測樣本數的比值，它不考慮預測的樣本是正例還是負例。考慮全部樣本。

precision
>正確預測的正樣本數佔所有預測爲正樣本的數量的比值，也就是說所有預測爲正樣本的樣本中有多少是真正的正樣本。只關注預測爲正樣本的部份。

Recall
> 正確預測的正樣本數佔真實正樣本總數的比值，也就是從這些樣本中能夠正確找出多少個正樣本。

F-score
>相當於precision和recall的調和平均，recall和precision任何一個數值減小，F-score都會減小，反之，亦然。

specificity
>相對於sensitivity（recall）而言的，指的是正確預測的負樣本數佔真實負樣本總數的比值，也就是我能從這些樣本中能夠正確找出多少個負樣本。

模型指標評估，
就是在衡量預測值和實際值的差異，
基本上誤差越小越好喔！

以上，打完收工。

[Day09] 機器學習的七大步驟-細節

[Day11]Google提供的API

系列文

Machine Learning Day30 共 26 篇

目錄

RSS系列文訂閱系列文

44 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22206 篇

完賽人數

600 人

Angular Signals 高效能開發演練

Hello World Dev Conference |

42 分

荷魯斯之眼 - 以攻擊面風險管理看破你以為的防護

奧義智慧科技 |

25 分

大型組織下的 PO 探索之路

Agile Summit 敏捷高峰會 |

27 分

訓練與認證管理系統打造全方位人才培訓

20 分

MOE 和 GPU 與 K8s 在服務網格上應用

Kubernetes Summit |

31 分

使用 Kong Gateway 與 GitOps 來管理您企業的 API 呼叫

Cloud Summit 臺灣雲端大會 |

30 分

當我們談論 5G 資安

臺灣資安大會 |

27 分

一刀殺進生成式AI的浪潮，七進七出語言模型的七路劍法

iThome鐵人賽 |

38 分

Streamline Incident Management

DevOpsDays |

24 分

「企業混合雲實戰攻略三策」混合雲架構的策略法則—Datacenter Modernization with Azure

IT EXPLAINED |

41 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js