[Day11] 混淆矩陣

第 11 屆 iThome 鐵人賽

DAY 11

Google Developers Machine Learning

Google'sMachineLearning-挑戰機器智慧極限系列第 11 篇

11th鐵人賽 mlstudyjam machine learning

nightlan1015297

2019-09-14 20:39:59

1653 瀏覽

分享至

在訓練Machine Learning Model時，我們的Model一定會出錯，
而錯誤又分成兩類，在優化錯誤時應該要想，我們的錯誤要往哪方面優化，才會對使用者受到的影響降到最低。

Confused Matrix

Confused Matrix是一個很好的方法來分析Model的錯誤情況。

上圖可以看到Model出錯的面相有兩個，一個是理應輸出True的輸入卻輸出了False的答案(False Negative)
而另一個則是理應輸出False的輸入卻輸出了True(False Positive)，而不同的Model在對這兩者錯誤應該要怎麼優化
有不同的答案(當然，如果能同時降地兩者的錯誤率就好了，不過現實總是不會那麼簡單。)

上面兩張圖分別在講兩個錯誤的錯誤率計算，那麼問題來囉？
要如何根據Model的功能，選擇降低哪一種錯誤率？

讓我們來看看吧，上圖是檢測照片是否有私人個資的Model，
可以看到右邊的圖有私人個資的圖被Model誤判成沒有個資的圖片，而左邊沒有個資的圖也被誤判成了有個資的圖片，
在這種情況下，很明顯的，如果Model出了右邊的圖的錯誤的話，極有可能讓這張有個資的圖外洩(因為他被標繼承沒有個資的圖了)，那麼這種情況我們就得選擇要降低右邊這種錯誤(False Negative)的錯誤率。
根據不同的Model會有不同的優化傾向，而利用Confused Matrix來分析Model的錯誤是一個很好的方法。