02 線性迴歸 -- 迴歸問題中的線性模型

2019 iT 邦幫忙鐵人賽

DAY 1

AI & Data

機器學習模型圖書館：從傳統模型到深度學習系列第 2 篇

2019鐵人賽 machine learning linear regression normal-distribution

杜岳華

2018-10-02 23:41:06

7841 瀏覽

分享至

這個模型大概已經被人講過很多次，講到都快要爛掉了XD

其實我自己在兩年前的鐵人賽中也有講過同一個模型，所以我就不用講太多基礎的部份：

總的來說，線性模型就是依賴著 $y = w_0 + w_1x_1 + w_2x_2 + \dots + w_nx_n$ 這樣的一條數學式子。

為了方便起見我們將他化成向量的形式： $y = \mathbf{w}^T\mathbf{x} + b$

你會發現線性迴歸會是一個向量的內積的運算再加上一個常數，這個常數被很多人討論很久，很多人可能不是那麼了解他的意義。這個常數代表的就是在空間上的一個位移，在內積的 $\mathbf{w}$ 這個係數向量上，他們決定了在空間中整個線或是平面的傾斜程度，而常數則是在空間上的位移，也就是要將這個線或是平面擺在哪一個地方。

但是這個常數如果擺在下一篇要講的感知器（perceptron）當中的話，那就有不同的解釋了，這個留到下回再說。

那麼，基礎的部份都在前面的文章內容中講完了，剩下的要來說點什麼呢？

模型的統計面向

我們來講點這個模型的統計面向吧！

一般來說，我們在計算這個模型的時候，這個模型背後是有他的統計面向的假設的。

誤差

線性迴歸對誤差是有假設的，也就是假設誤差會呈現常態分佈（Gaussian distribution），這樣的假設與這個模型所使用的 mean square error 是有關係的，不過今天不會深入這些關係。

我們要進入這件事之前，我們先來看看常態分佈長什麼樣子。

Wikipedia

我們借到了維基百科的圖，其中 X 軸是連續的數值，Y 軸是這些數值出現的機率或是頻率。你會看到他是以平均值 $\mu$ 為中心的一個分佈，整個分佈是單峰的。平均值的出現機率是最高的，機率開始往兩邊遞減。這說明了最常出現的數值會剛好在平均值上，其他離平均值很遠的數值也是有機率出現，但是機率很小。

整個分佈的寬度是由標準差 $\sigma$ 的大小決定的，如果標準差愈大，代表這個分佈是愈寬的，愈寬代表資料的離散程度是大的。

這其實來自於對於自然現象的觀察。高爾頓，達爾文的表弟，觀察了自然現象，發現眾多自然現象都有一種趨勢，像是人的身高跟體重都是連續的數值，而且都沒有上下界，為什麼他們不會平均分佈呢？他會向某一個值集中，那個值差不多是整個分佈的平均值，這樣的趨勢被他稱為「迴歸」。這也是迴歸這個詞的由來，但今日的迴歸的意義不相同。

題外話，高爾頓提出了不少對今日的科學有影響的主張，像是他主張人類的才能是可以透過遺傳延續的，並提倡了優生學。他發表了一些關於指紋的研究，被認為跟今日以指紋鑑定有相關。在統計學上，他也發表了相關係數的概念，並且沿用至今。

以下是常態分佈的公式：

$https://chart.googleapis.com/chart?cht=tx&chl=P(x%3B%20%5Cmu%2C%20%5Csigma)%20%3D%20%5Cfrac%7B1%7D%7B%5Csqrt%7B2%20%5Cpi%20%5Csigma%5E2%7D%7D%20e%5E%7B-%20%5Cfrac%7B(x%20-%20%5Cmu)%5E2%7D%7B2%20%5Csigma%5E2%7D%7D$

整體看起來可能很醜很複雜，我們通常會把平均值歸零，並且讓標準差為 1，他看起來就會簡潔許多。

$https://chart.googleapis.com/chart?cht=tx&chl=P(x%3B%200%2C%201)%20%3D%20%5Cfrac%7B1%7D%7B%5Csqrt%7B2%20%5Cpi%7D%7D%20e%5E%7B-%20%5Cfrac%7Bx%5E2%7D%7B2%7D%7D$