iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 10
0

想知道我們Training出來的模型好壞,
就要選用適當指標來評估,
通常分成「迴歸」、「分類」兩大類問題。

迴歸問題

觀察預測值 (Prediction) 和實際值 (Ground Truth) 的差距

1. MAE

MAE, Mean Absolute Error, 範圍:[0, ∞]

2. MSE

MSE, Mean Square Error, 範圍:[0, ∞]

  • 是各測量值誤差的平方和取平均值的平方根(均方根誤差的平方)
  • 可以評價數據的變化程度
  • 數學特性很好,使計算梯度變得更容易
  • 參考:什麼是均方誤差

PIC


MAE vs MSE

參考:如何選擇回歸損失函數?
評估實際值和預測值的距離,例如「問我們預測出來的排名,距離實際的排名差了多少」

MAE MSE
特性 較同原資料 容易被放大
離群值 不適 適合
用途 適合商業模型
準確 數字越小 數字越小
迴歸 收斂慢,次數多 收斂快,次數少
梯形 較平 較陡

3. R-square

R-square, 範圍:[0, 1]

參考決定係數(R平方)解釋

R平方的數學表示

R平方由下式給出
https://ithelp.ithome.com.tw/upload/images/20190922/20112568PqfUqoa730.png
其中SSE是我們的回歸模型的誤差平方的總和
https://ithelp.ithome.com.tw/upload/images/20190922/20112568xz9MSYte12.png
而SST是我們的基礎模型的誤差平方的總和。
https://ithelp.ithome.com.tw/upload/images/20190922/20112568E1ldrJyoBW.png

最糟糕的模型

R平方= 1-1 = 0
https://ithelp.ithome.com.tw/upload/images/20190922/20112568AquUF9HObf.png

最好的模型

R平方= 1-0 = 1
https://ithelp.ithome.com.tw/upload/images/20190922/20112568gYpqA6lCUX.png

如何解釋R平方?

如果R平方= 0.93,則意味著因變量Y的93%變化由我們模型中存在的自變量解釋。

分類問題

觀察預測值 (Prediction) 和實際值 (Ground Truth) 的正確程度

1. AUC

AUC, Area Under Curve, 範圍:[0, 1]

ROC空間

让我们来看在實際有100个阳性和100个阴性的案例時,四種預測方法(可能是四種分類器,或是同一分類器的四種閾值設定)的結果差異:

將這4種结果畫在ROC空间裡:
點與随机猜测线的距離,是預測力的指標:离左上角越近的點預測(診斷)準確率越高。離右下角越近的點,预测越不準。

  • 在A、B、C三者當中,最好的結果是A方法
  • B方法的结果位於随机猜测线(對角線)上,在例子中我们可以看到B的準確度(ACC,定義見前面表格)是50%。
  • C方法雖然預測準確度最差,甚至劣於隨機分類,也就是低於0.5(低於對角線)。然而,当将C以 (0.5, 0.5) 為中點作一个镜像后,C'的结果甚至要比A还要好。这个作镜像的方法,简单說,不管C(或任何ROC點低於對角線的情況)预测了什么,就做相反的結論。

ROC曲線

同一個二元分類模型的閾值可能設定為高或低,每種閾值的設定會得出不同的FPR和TPR

  • 當閾值設定為最高時,必得出ROC座標系左下角的點 (0, 0)。
  • 當閾值設定為最低時,必得出ROC座標系右上角的點 (1, 1)。
  • 隨著閾值調低,ROC點 往右上(或右/或上)移動,或不動;但絕不會往左下(或左/或下)移動。

曲線下面積(AUC)

ROC曲線下方的面積 Area under the Curve of ROC (AUC ROC)

  • 比較曲線下面積做為模型優劣的指標
  • 因為是在1x1的方格裡求面積,AUC必在0~1之間。
  • AUC值越大的分類器,正確率越高。
    • AUC = 1,是完美分類器
    • 0.5 < AUC < 1,優於隨機猜測
    • AUC = 0.5,跟隨機猜測一樣
    • AUC < 0.5,比隨機猜測還差

2. F1-Score

F1-Score (Precision, Recall), 範圍:[0, 1] ,混淆矩陣 (Confusion Matrix) 相關

混淆矩陣 (Confusion Matrix)

參考:深度學習中TP FP FN TN precision Recall Accuracy

PIC

True Positive(TP):預測爲正例,實際爲正例
False Positive(FP):預測爲正例,實際爲負例
True Negative(TN):預測爲負例,實際爲負例
False Negative(FN):預測爲負例,實際爲正例

F1-Score (Precision, Recall)

PIC

accuracy
>正確預測的樣本數佔總預測樣本數的比值,它不考慮預測的樣本是正例還是負例。考慮全部樣本。

precision
>正確預測的正樣本數佔所有預測爲正樣本的數量的比值,也就是說所有預測爲正樣本的樣本中有多少是真正的正樣本。只關注預測爲正樣本的部份。

Recall
> 正確預測的正樣本數佔真實正樣本總數的比值,也就是從這些樣本中能夠正確找出多少個正樣本。

F-score
>相當於precision和recall的調和平均,recall和precision任何一個數值減小,F-score都會減小,反之,亦然。

specificity
>相對於sensitivity(recall)而言的,指的是正確預測的負樣本數佔真實負樣本總數的比值,也就是我能從這些樣本中能夠正確找出多少個負樣本。


模型指標評估,
就是在衡量預測值和實際值的差異,
基本上誤差越小越好喔!


以上,打完收工。


上一篇
[Day09] 機器學習的七大步驟-細節
下一篇
[Day11]Google提供的API
系列文
Machine Learning Day3026

尚未有邦友留言

立即登入留言