【Day 06】Step 2 Loss function －平均絕對誤差(MAE)

第 11 屆 iThome 鐵人賽

DAY 6

AI & Data

實實在在地學習人工智慧－基礎理論探討與經典案例實作系列第 6 篇

11th鐵人賽

John

2019-09-21 23:46:53

14927 瀏覽

分享至

我們昨天提到了兩個重要的知識，分別出現在我們超級簡化流程裡的二、三步驟，一個是用來判定函式的好壞的損失函式，一個是要讓我們持續逼近最好的函式的梯度下降法。
今天會主攻損失函式！ＧＯＧＯ！

在機器學習中，損失函式有非常多種類，例如：均方誤差(Mean square error，MSE)、平均絕對值誤差(Mean absolute error，MAE)、交叉熵(cross-entropy)等等。

今天只會介紹到比較基礎好懂的MAE，也是常用在做回歸相關案例的損失函式。

平均絕對誤差(Mean Absolute Error，MAE)

平均絕對誤差也可以稱作L1損失。光看到這個名詞「平均絕對誤差」，我們就可以從中推敲他的公式，一定有是「絕對值」也有「平均」的概念在裡頭。
先放上MAE公式給大家瞧瞧：

沒錯沒錯，果真有絕對值和要找平均值！
而參數們個別代表

n : 資料數
fi : 預測值
yi : 實際值

JOHN國為例

id | price | sqft_living
------------- | ----------
1 | 500000 | 55
2 | 275000 | 27
3 | 360000 | 33
4 | 780000 | 70
5 | 145000 | 13
6 | 280000 | 26
7 | 860000 | 89
8 | 200000 | 21
9 | 90000 | 10
10 | 680000 | 67

也就是說現在n = 10，而各個price就是yi。

實際做做看：假設我們現在從函式池子選到 fi(預測的價格) =6000 * x(sqft_living) + 10000

先把各個sqft_living的fi算出來：
id | fi | sqft_living
------------- | ----------
1 | 340000 | 55
2 | 172000 | 27
3 | 208000 | 33
4 | 430000 | 70
5 | 88000 | 13
6 | 166000 | 26
7 | 544000 | 89
8 | 136000 | 21
9 | 70000 | 10
10 | 412000 | 67
然後開始計算MAE：
id ||fi - yi|| sqft_living
------------- | ----------
1 | 160000 | 55
2 | 103000 | 27
3 | 152000 | 33
4 | 350000 | 70
5 | 57000 | 13
6 | 114000 | 26
7 | 316000 | 89
8 | 64000 | 21
9 | 20000 | 10
10 | 268000 | 67
那麼這個函式所算出來的MAE=160,400

光是只有一個函式我們並不會知道它到底好不好，所以我們拿之前在【Day 04】超級基礎的機器學習－Linear Regression 介紹（1/2）用程式算出來的最佳解來重新算算看。

最佳解試試看：fi2 = 9987 * x + 6531

同樣地先計算出各個fi2
先把各個sqft_living的fi算出來：
id | fi2 | sqft_living
------------- | ----------
1 | 555816 | 55
2 | 276180 | 27
3 | 336102 | 33
4 | 705621 | 70
5 | 136362 | 13
6 | 266193 | 26
7 | 895374 | 89
8 | 216258 | 21
9 | 106401 | 10
10 | 675660 | 67
然後開始計算MAE：
id ||fi2 - yi|| sqft_living
------------- | ----------
1 | 55816 | 55
2 | 1180 | 27
3 | 23898 | 33
4 | 74379 | 70
5 | 8638 | 13
6 | 13807 | 26
7 | 35374 | 89
8 | 16258 | 21
9 | 16401 | 10
10 | 4340 | 67
那麼這個函式所算出來的MAE=25,009.1