iT邦幫忙

2021 iThome 鐵人賽

DAY 16
0
AI & Data

後端工程師的ML入門理解與Vertex AI系列 第 16

最小平方法 | ML#Day16

wiki頁面:最小平方法

詳細的內容就不在這裡贅述了,這裡依舊是介紹一點簡單的概念。

為什麼我們要提這個東西呢?因為需要稍微知道為什麼模型的結果無法那麼完美,而且我們在追求的東西只是一個近似值,近似值並非不好,因為是個有科學根據,數學驗證過出來的結果。

由圖可知,其實幾乎每個資料點,都不會剛剛好的出現在線上。

不是偶爾有誤差,而是大部分的時候結果都是有誤差,這個觀念可能要特別注意。

既然誤差不可避免,可以的話當然希望誤差越小越好,而誤差也不能只看一個單點,要把所有的點預測值和每個點的實際值,所總和出來的誤差再除以平均數量,就是損失函式的概念。

最小平方法是損失函式的其中一種方法,也是比較基本和好理解的概念。

如上圖,我們的點可能出現在線的右邊或者左邊,如果以線所在的位置為中心點,資料點有誤差,落在右邊為正數;資料點有誤差,落在左邊則為負數;那麼如此一來我們把所有誤差做加總的時候,就會發生正負相抵的狀況。

這樣的數學運算,會默默地抵銷實際上的誤差數字,並不是我們想要的,那麼把每個誤差值,無論正負都先乘以平方,所有的數字就變成一定會用正數做運算。

雖然知道數值其實是實際的平方倍,然後這也不失為一個評估用來預測的線,與實際值得落差有多大,因為原本的誤差越大,得到的平方數字當然也跟著越大,一但有辦法縮小誤差,平方出來的數字也就跟著越小囉。

所以訓練出來的模型,可以用一些數學的方法驗證可靠性程度,或者用某些方式評估模型的好壞,因此結果有所價值,但是要能夠完全精準的百分百達到零誤差的狀況,幾乎是不可能狀況。

理解模型的極限與適用性,不要有過度的期待,了解可以帶來的價值,畢竟有些事情單靠人腦難以企及,也許更有機會在我們這些未曾使用ML的團隊上,落地實用化並享受AI的好處。


上一篇
使用迴歸分析與其意義 | ML#Day15
下一篇
框架與挑選實作的階段 | ML#Day17
系列文
後端工程師的ML入門理解與Vertex AI30

尚未有邦友留言

立即登入留言