Day8 線性迴歸Linear Regression(3)--正規化迴歸(Regularized Regression)

2022 iThome 鐵人賽

DAY 8

AI & Data

人類學習機器學習的學習筆記 with Python系列第 8 篇

14th鐵人賽機器學習資料科學

liaochenpo

團隊NTUEPM_STAT LIFE

2022-09-19 10:52:31

2729 瀏覽

分享至

前言

在多元迴歸模型中，我們常常關心是否全部的解釋變數都可以幫助預測反應變數，或是只有部分的解釋變數有用？昨天的內容提到可以解決這類問題常見的方法有子集選取法(subset selection)、正規化(regularization)與降維(dimension reduction)等，今天將討論正規化或稱為收縮法(shrinkage methods)的方法來解決這類的問題。另外，使用這些方法除了找出重要的解釋變數外，在高維度，也就是資料維度p > 樣本數n時，以最小平方法求解迴歸係數的方法將會有問題產生。例如原來利用最小平方法估計的迴歸係數為 $\bf \hat{\beta} = (X^TX)^{-1}X^Ty$ ，但若是在資料維度大於樣本數時(p > n)，則 $\bf X^TX$ 將不存在反矩陣(inverse matrix)得迴歸係數無法順利求解， $rank(X^TX) \leq rank(X) \leq min \lbrace N, p \rbrace = N < p$ ，因此需要進行變數挑選的幫忙減少模型中的迴歸係數來求解迴歸係數。且在機器學習的問題中，常常會有overfitting的狀況產生，也就是訓練出來的模型完全是訓練集資料的形狀，在訓練集表現得很好，而到了測試集的表現卻差了許多，而正規化迴歸模型也可以用來處理這類的問題。

正規化迴歸(Regularization regression)的方法是在原來迴歸模型中迴歸係數的求解過程加入一些懲罰項(penalty term)來限制迴歸係數數值的大小，將原來數值接近0的迴歸係數收縮到0，保留數值較大的迴歸係數(實際資料建構的迴歸模型，其迴歸係數很少真正等於0)，藉由這樣的方式達到變數挑選的結果。今日的內容會提到兩種不同加入懲罰項的正規化方法，分別是利用L2-norm的Ridge與利用L1-norm的Lasso。

$RSS = \bf |\,|y - X\beta|\,|^2$

Ridge

正規化迴歸模型的參數估計過程與最小平方法相似，只是加上了懲罰項來限制迴歸係數，不過都是利用使RSS(Residual Sum of Squares)最小的概念進行估計。在Ridge regression使用的是L2-norm來限制迴歸係數的數值，其中 $\lambda$ 稱為tuning parameter。當 $\lambda = 0$ 時，懲罰項無法發揮效果，得到的結果與原來最小平方法相同；而當 $\lambda \to \infty$ 時，懲罰項發揮最大的效果使迴歸係數都被收縮到0。因此tuning parameter的選擇將會影響到模型的參數估計，交叉驗證(cross-validation)常常被利用來選擇tuning parameter，在後續的內容將會提到如何利用交叉驗證來挑選參數或模型。

Loss function: $L = RSS + \, \lambda|\,|\beta|\,|_2$
$|\,|\beta|\,|_2 = \sqrt { \sum_{i=1}^p \beta_j ^2}$
$\hat{\beta}^{ridge} = argmin {\bf |\,|y-X\beta|\,|^2} +\, \lambda |\,|\beta|\,|_2$

一般來說，利用最小平方法的參數估計方法可以得到偏差(bias)較小但是變異(variance)較大的估計結果，也就是說在訓練集資料上有一些小小的變動可能就會造成估計上有很大的不同，Ridge regression可以在偏差與變異兩種考量下得到較穩定的估計結果，在高維度p > n的情形下也有優於最小平方法的表現。

Lasso

Ridge regression模型雖然經由懲罰項將迴歸係數的數值縮到接近0(無法真的將數值準確收縮到0)，但通常還是會包含所有的解釋變數。這樣的情形雖然不會對於預測的準確度造成問題，但是當解釋變數很多時模型解釋就會變得相對困難。Lasso regression可以解決這樣的問題，將不重要的解釋變數的迴歸係數數值縮到0，等同於在對資料進行變數挑選(variable selection)使模型變得容易解釋，因此近幾年比Ridge regression更受歡迎，Lasso使用的是L1-norm來限制迴歸係數的數值，其中tuning parameter也可以利用交叉驗證來挑選一個好的數值。

Loss function: $L = RSS + \, \lambda|\,|\beta|\,|_1$
$|\,|\beta|\,|_1= \sum_{i=1}^p |\beta_j |$
$\hat{\beta}^{lasso} = argmin {\bf |\,|y-X\beta|\,|^2} +\, \lambda |\,|\beta|\,|_1$