概論 - 曲線擬合 Curve Fitting (2) Overfitting! - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2018 iT 邦幫忙鐵人賽

DAY 5

AI & Machine Learning

機器學習你也可以 - 文組帶你手把手實做機器學習聖經系列第 5 篇

概論 - 曲線擬合 Curve Fitting (2) Overfitting!

2018鐵人賽

shortid

2017-12-23 12:02:04

7155 瀏覽

分享至

昨天我們把Curve Fitting分成了

推測曲線
預測新資料

其實這兩個部份我們可以把他看作是：

training 訓練
testing 測試

這兩個階段，基本上機器學習方法，都有這兩個階段！
以準備考試的例子來說，training就是唸書，testing就是考試！

我們昨天介紹了怎麼推測曲線，也是就training的階段。
並再最後留下了一個問題，那就是我們可能fit了太多有問題的資料，拿昨天舉的例子，就是我們亂點的點，其實不一定在我們要的曲線上面。所以如果我們去fit這些資料，而且我們還fit的很好！

那這就非常容易造成一個問題叫做Overfitting
也就是我們的E(w)在我們看過資料中表現的非常的好，E(w)值非常的低，可是在我們還沒看過，那些用來測試的資料表現的非常的差，E(w)值非常的高。

再以準備考試的例子來說，就是你準備太多了，甚至到了鑽牛角尖的地步，看了很多很多很多很多很多不會考的東西！結果最後考試的時候你反而不太記得會考得東西有哪些了！

這是一個非常實際的問題，因為我們得到的資料，一定會有noise（雜訊)
不管我們再怎麼小心篩選資料，一定都還是會有雜訊在。
我們可以簡單的把noise分成兩種：

離群值
既有的偏差

離群值，你可以把它當作錯的資料。
而所謂既有的偏差就是說，你在同一個x不一定會有同樣的y，這樣講可能有點抽象。
簡單的例子就是說，每個人寫同一個字，一定都會長的不一樣。每個人說同一個字，所得到的聲波一定也不一樣。同一條曲線，每個人亂點，點出來的點點分佈一定也不一樣。

我們來看一個簡單的例子！

我們phi 的 M 分別從1 ~ 9

紅線是我鉛筆畫的線，紅點就是手殘的我點的點點，而藍色虛線就是我推測出來的曲線！

可以發現，第一排fit得很差，這樣的情況叫做underfitting，而第三排雖然fitting的很好（他通過了每一個紅點），可是我們看得出來他跟我們原本的紅線差很多很多，這就是overfitting！反而是第二排的狀況，雖然fitting的情況沒有第三排好(也就是第二排的E(w)大於第三排的)，可是卻比較接近我們想要的紅線。

而從這個圖也可以看出來，如果要預測新的資料，一定是第二排的預測會比較好！！

第三排的fitting能力十分的好，可是預測效果卻會很差！
這樣的情況要怎麼解決呢？

其實很簡單，我們第三排的Regression曲線之所以會overfitting，就是因為他太會fit了，所以我們就讓他不要那麼會fit就好了！

首先呢，我們先看看什麼叫做太會fit了。
假設我們的特徵還是只有一個x，並且我們利用phi，將x變成5維。
也就是，其中M = 4

接著我們考慮兩個不同的w向量叫做A跟B

其中的字母都可以是任意值，零則是一定要是零！