今天我們繼續昨天的問題:要如何找到「油耗」與「里程」之間的對應關係,來幫助阿鐵預測未來每公升的油能跑的公里數呢?這時候我們就用迴歸分析來解決這個問題!
以下是阿鐵目前收集到的資料:
油耗(公升) | 里程(KM) |
---|---|
9 | 45 |
4 | 24 |
7 | 59 |
3 | 28 |
10 | 91 |
7 | 28 |
4 | 42 |
3 | 18 |
1 | 14 |
9 | 82 |
若將油耗當作 x (自變數)、將里程當作 y(應變數),然後在 x-y 平面上做圖,會得到下面的結果:
這時候,我們第一步需要選擇一個模型,來幫助我們解釋這兩個變數的對應關係。最簡單也最常見的模型,就是線性模型,其數學式子跟我們昨天看到的很像
y = a * x + b
a 和 b 是常數,也是我們需要去找到的數值。若決定了 a & b ,那麼未來我們只要帶入 x 的值,就會知道我們預期的 y 為多少,也就是說,我們帶入已知的公升數,就會知道預期的里程數是多少。
這裡要注意的是,y = a * x + b
只是一條預測線,實際狀況通常跟預測值通常都會有落差,但是越好的模型,將可以帶給我們更準確的預測值,也就是落差將會更小。
不同的 a & b 的組合,將會產生不同的結果。像是下圖當中不同顏色的線,分別有不同的 a & b 組合
那麼,我們要如何找到最好的那條線呢?也就是說,要如何找到一組 a & b,可以讓預測值與實際值之間的差距最小呢?
與其像無頭蒼蠅一樣亂猜 a 跟 b 是什麼,不如回頭看看我們已有的 10 筆資料,我們是不是可以找到一組 a & b,畫出一條預測線,能讓目前的 10 筆資料,跟預測線之間的差距總和最小呢?
今天就先談到這裡,休息一下,明天我們將會來看看如何找到那條最好的線!