評估指標會根據問題的不同而有不同的答案,通常會反映在損失函數(Loss Function)上。
以線性回歸問題來說,MSE或RMSE就可以當成我們的目標。
問題變成二元分類問題時,也許使用cross-entropy就會是比較好的選擇。
Cross-entropy的概念可以從softmax看起,在特殊狀況下就能簡化成cross-entropy的形式。
上面這些都是數字化的量化手段,難道就一定正確嗎?
不一定,所以實際使用的時候更常使用混淆矩陣(Confusion Matrix)來幫助我們判斷模型的適用與否。
有關於混淆矩陣的定義,我想有興趣的人查混淆矩陣就可以得到對應的公式;所以我在這邊提供簡單的記憶。
所謂的預測/模型結果,無非是讓我們更接近真實。
如果實際上有這個現象(正常現象),但判斷認為是異常結果,造成人力物力的浪費。
如果實際上為異常,但判斷認為只是正常現象,造成拖延治療。
實際上正常當中我們錯判為不正常的比例,就稱為FPR(False Positive Rate)。
實際上異常當中我們正確辨識出來異常的比例,就稱為TPR(True Positive Rate)。
ROC曲線就是根據FPR與TPR對應連成的曲線。
Recall就是TPR。
Precision這個東西,要講的是當我(願意)做判斷時,判斷中對的比例。
為什麼說願意做判斷?
因為可以不做決定呀,做很肯定的決定,錯誤少,Precision就會比較高。
以人類社會來說大家會說你很準。
Recall就不同了,它檢驗的標準就是樣本中全部可能的問題,能判斷中幾個。
這兩個指標來說,Precision像深度而Recall像廣度,兩者兼顧當然很好,所以就利用調和平均產生了F1-score。
至於什麼時候可以停止繼續運算?
好問題,也許這就是市場調查專家的本行了吧。