wiki頁面:最小平方法
詳細的內容就不在這裡贅述了,這裡依舊是介紹一點簡單的概念。
為什麼我們要提這個東西呢?因為需要稍微知道為什麼模型的結果無法那麼完美,而且我們在追求的東西只是一個近似值,近似值並非不好,因為是個有科學根據,數學驗證過出來的結果。
由圖可知,其實幾乎每個資料點,都不會剛剛好的出現在線上。
不是偶爾有誤差,而是大部分的時候結果都是有誤差
,這個觀念可能要特別注意。
既然誤差不可避免,可以的話當然希望誤差越小越好,而誤差也不能只看一個單點,要把所有的點預測值和每個點的實際值,所總和出來的誤差再除以平均數量,就是損失函式
的概念。
最小平方法是損失函式
的其中一種方法,也是比較基本和好理解的概念。
如上圖,我們的點可能出現在線的右邊或者左邊,如果以線所在的位置為中心點,資料點有誤差,落在右邊為正數;資料點有誤差,落在左邊則為負數;那麼如此一來我們把所有誤差做加總的時候,就會發生正負相抵的狀況。
這樣的數學運算,會默默地抵銷實際上的誤差數字,並不是我們想要的,那麼把每個誤差值,無論正負都先乘以平方,所有的數字就變成一定會用正數做運算。
雖然知道數值其實是實際的平方倍,然後這也不失為一個評估用來預測的線,與實際值得落差有多大,因為原本的誤差越大,得到的平方數字當然也跟著越大,一但有辦法縮小誤差,平方出來的數字也就跟著越小囉。
所以訓練出來的模型,可以用一些數學的方法驗證可靠性程度,或者用某些方式評估模型的好壞,因此結果有所價值,但是要能夠完全精準的百分百達到零誤差的狀況,幾乎是不可能狀況。
理解模型的極限與適用性,不要有過度的期待,了解可以帶來的價值,畢竟有些事情單靠人腦難以企及,也許更有機會在我們這些未曾使用ML的團隊上,落地實用化並享受AI的好處。