[Day 05] linear regression辛祕

2017鐵人賽 regression

杜岳華

2016-12-20 23:30:35

6140 瀏覽

分享至

我們前面講完的simple linear regression之後，我們就往更高維度的方向走。

高維的linear regression

基本上，像前面的線性代數解其實很容易擴展到高維去。
他不過是把方程式的變量變多，然後在矩陣的表示法上面是完全一樣的，所以像這樣容易擴展又有相同公式解的就是很優雅的解法。

gradient descent在演算法上也不需要修改太多，只需要擴展變量的數目即可，不過他仍舊是要一步一步走到最低點。
這個特點讓他在一些線性代數無法處理的情況下凸顯出來，有些時候我們的loss function是沒辦法有這麼漂亮的線性代數解的，那就會碰到像是一座座山丘中間隔著山谷，幸運的話，我們可以用gradient descent找到最佳解。

小心用linear regression

那linear regression在使用上需要注意一些地方：

注意要把outlier踢掉！linear regression會受到極端值跟outlier的影響，所以請在做linear regression之前要先把資料拿出來看一看。

那為什麼會受到極端值影響哩？主要是來自於linear regression的假設，linear regression裏面偷偷假設了在計算y變項的誤差的時候用的是平均值，平均值是個容易受到極端值影響的統計量，所以當極端值出現的時候就容易被拉走。

有沒有辦法解決阿？實際上有拉！但是有點難就是了，解法就是去把底下的平均值抽換成其他不容易受極端值影響的統計量，例如中位數，這類統計叫作robust statistics，而linear regression的替代方案呢就是robust regression。

你可能覺得"我什麼時候假設了計算y變項的誤差的時候用的是平均值？"。沒錯，在使用linear regression的時候的確做了這個假設！這個假設就藏在least square method裏面！也就是說，當你使用了least square method去計算誤差的時候就已經假設了你的誤差是常態分佈，而且用平均值來做估計，所以robust regression就使用了不同的方法來處理他，他用的是least absolute deviations，也就是不用平方項，而是用絕對值的方法。

可是放了絕對值之後，就不能微分了！所以graient descent就不能用了！線性代數解也沒辦法解，看來還是乖乖把outlier踢掉比較輕鬆。

注意他是線性的！有些人可能看都沒看就把資料丟下去做linear regression或是計算相關係數，這是非常危險的！因為這個模型是線性的，那也請確認資料的分佈型態也是線性的才拿來用，不然可能會發生以下悲劇：

以上是1973年Francis Anscombe先生造出來的資料，這些資料拿去做linear regression之後，相關係數都達到0.816，如果只看相關性的話會讓人誤以為資料匹配的很好，但其實不然。

[Day 04] Gradient descent

[Day 06] 不同的regression

系列文

我的資料科學之路共 34 篇

RSS系列文訂閱系列文

117 人訂閱

完整目錄

2 則留言

WeiYuan

iT邦新手 4 級 ‧ 2016-12-20 23:58:03

「這個特點讓他在一些線性代數無法處理的情況下凸顯出來，有些時候我們的loss function是沒辦法有這麼漂亮的線性代數解的，那就會碰到像是一座座山丘中間隔著山谷，幸運的話，我們可以用gradient descent找到最佳解。」
=> 這邊針對的情況是像什麼？像是 loss function 不是 ||y-Xw||^2 的情況嗎？