機器學習的目標,就是要預測未來,預測能越準越好,但是要怎麼知道準不準確呢?這時候「損失函數」(loss function)就很好用了!
當損失函數越小,表示這個model設計越好,反之,就要考慮換別的model了。
根據教學範例,她提到一個現象「蟋蟀在越高溫度叫的頻率越高」。他們把這個現象整理成每分鐘有多少叫聲(x軸)和溫度(y軸)的X-Y軸圖。(如下圖一)
〈圖一〉
可以看到有個左下到右上的趨勢,在那個趨勢上畫一條線,這就是我們的「model」,我們可以根據溫度,來預測蟋蟀每分鐘可以叫幾次。(如下圖二)
〈圖二〉
但是我們設計了一個model(紅色的線),我們要怎麼知道這個model是可以用的,誤差是大是小?這時候就是機器學習的重要的判斷方式:均方誤差(Mean square error,MSE),還有「平均絕對值誤差」(Mean absolute error,MAE)。兩者都可以達到我們想要判斷的目標,他們有個明顯的差異,MSE的線圖是曲線,比較滑潤,而MSA是直線性的,比較硬(聽起來好奇怪)。
均方誤差的公式為:
所以是,我們的「真正資料」減去「預測資料」的平方,然後再除以數據資料的數量之總和。
而平均絕對值誤差,則是轉成絕對值後相加。
「『真實』減去『預測』」所得到的值,就是「誤差(loss)」,而無論是MSE和MAE都會是正的數字,不會因為會用到「『真實』減去『預測』」得到的一正一負數值被抵消掉。
當這兩個數值越大,代表誤差(loss)越多,也就表示這個model越不好,最好的狀況值為「0」,表示這個預測的model跟現實一模一樣。所以MSE被認為是檢測model到底準不準確的一大計算公式。
睫毛之聲:
現在離數學、統計公式越來越近,表示說我們的概念越來越清楚了。從名詞解釋,前幾天提到機器學習會用到方式,到今天的檢測與判斷。
更詳細的說明可以參考:網站-機器/深度學習: 基礎介紹-損失函數(loss function)