ML_Day23(Ridge Regression)

第 11 屆 iThome 鐵人賽

DAY 23

自我挑戰組

機器學習入門系列第 23 篇

11th鐵人賽 machine learning ridge regression

wty81213

2019-10-05 15:37:03

1141 瀏覽

分享至

簡單回顧
之前在介紹 Gradient Descent 及 ML入門（十五）Regularization(Solving overfitting)都有提到，在做最佳化的時候，會對目標函數加入一些限制條件。舉個例子好了，最近朋友推薦看一部動漫，相信大家也都很熟才對，鬼滅之刃，主角炭治郎在接受訓練時，一直拼命練習為了能夠變得更強，但是幫他訓練的柱，還是會要求他休息養傷，終究是人類還是得休息。這就是限制條件，在最佳化的問題時，必須要有所限制。

由下面這張圖可以看到，紅色典是training data，綠色點是testing data。很明顯地紅色的線完整的 f 擬合training data，但是testing data所造成的誤差很大，有high variance及overfitting的情況。

Ridge Regression就是產生一條新的線(藍色線)，不要那麼完整地擬合taining data。

之前的章節有提到一個model的好壞必須要有一個目標函數來衡量它，也就是loss function，這邊是MSE(mean square error)為例子，以下圖紅色線來說，它的MSE為0，藍色線MSE > 0。現在加入懲罰項(是不是有點熟悉的感覺)，重新計算兩條線的error，可以發現藍色線是比較小的，所以藍色的線條雖然減少對training data擬合的程度，但是能夠提高對testing data 擬合的程度。