iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 2
0

Regression

監督式學習是機器學習中最常見的演算法,而迴歸分析與分類則是在監督式學習中最常見的的類型

在這一堂課將探討回歸分析這個在統計上最廣泛使用的工具,想像一下我們想了解我們觀察的結果與特徵間的關聯。

以房價預測為例,這間房子大小?是否靠近學區?有沒有捷運?...等特徵值,我們想要知道我們的觀察值與特徵值呈現著怎樣的關係。

監督式學習是機器學習中最常見的演算法

What is the goal and how might you naively address it?

在台灣或所謂的華人區域,房價一直是一個非常重要的民生議題。

假設今天我有一棟房子想要出售,如果你不是我推房仲,我猜你會先上網看附近區域的實價登錄,這時候你就會搜尋同一個範圍的房價,甚至更精確一點你會直接查詢是否有跟你相同的建案出售,賣價為何?

一般衡量的指標都會是坪數,比如以下的搜尋結果
https://ithelp.ithome.com.tw/upload/images/20171220/20107448kESKk7wUrl.jpg

此時我們可以將每一個成交的單位,依照其坪數與成交價可以繪出下面的圖,每一個點代表一間房子的售價
https://ithelp.ithome.com.tw/upload/images/20171220/201074484vcDSGEq69.jpg

  • X:坪數(特徵或稱為共變量)
  • Y:售價(觀測值或稱為因變量)

假設現在我有一棟房子想要出售,基本上要剛好有一棟房子跟我一模一樣的機率是很小的,於是乎我將其鎖定在跟我家相去不遠,並且坪數大小差不多的房子,在這張示意圖中,我可以發現有兩間跟我家差不多的房子。

接著我們會忽略其他的房子,但是問題是,這樣合理嗎?

Linear Regression: A Model-Based Approach

順著前例我們可以來討論,房價與坪數的關係,我們將迴歸分析應用在這個例子上時,最簡單的模型就是在數據上畫出一條直線,直線包含了

https://ithelp.ithome.com.tw/upload/images/20171220/20107448XcalIG75TX.jpg

  • W1:斜率,稱為特徵X的權重,不同x代表不同的房屋坪數
  • W0:截距

從中可以得到一個線性函數,但是此時問題來了,這在個函數裡面不會只有一個w會有好幾組,所以我們思考且回答的是,我們要選擇那一條w做為我們的模型呢?

https://ithelp.ithome.com.tw/upload/images/20171220/201074487rH6goSeJZ.jpg

常見的做法是,我們透過每一個點到劃出的直線中求出距離,這個距離代表著你的預測與真實的結果差了多少,透過殘差平方和的最小值來求得最適合的直線

我們需要做的就是將每一條的值給透過殘值平方和給求出來
https://ithelp.ithome.com.tw/upload/images/20171220/20107448ImMDdSNGIn.jpg

  • $house 1 :第一間房子的真實價格
  • w0+w1sq.ft.house 1:第一間房子透過回歸求出的價格

最終我們可以得到一條讓殘值平方和為最小的直線

在些w最終的結果我們稱為w-hat,它將記住所有w0(斜率)與w1(截距)的集合,最終我們將可以透過這條來算我們的合理價格
https://ithelp.ithome.com.tw/upload/images/20171220/20107448JwJCWTjEDq.jpg

Reference:

後記:

原本我是打算通通用手寫來畫圖,但是我發現如果堅持這麼做,我可能會跑不完這30天,所以就引用了上課的投影片,畢竟已經不是學生惹,請大家見諒QAQ


上一篇
[day 0] 開始之前
下一篇
[day 2] 回歸分析-2
系列文
到底是在learning什麼拉30

尚未有邦友留言

立即登入留言