監督式學習是機器學習中最常見的演算法,而迴歸分析與分類則是在監督式學習中最常見的的類型
在這一堂課將探討回歸分析這個在統計上最廣泛使用的工具,想像一下我們想了解我們觀察的結果與特徵間的關聯。
以房價預測為例,這間房子大小?是否靠近學區?有沒有捷運?...等特徵值,我們想要知道我們的觀察值與特徵值呈現著怎樣的關係。
監督式學習是機器學習中最常見的演算法
在台灣或所謂的華人區域,房價一直是一個非常重要的民生議題。
假設今天我有一棟房子想要出售,如果你不是我推房仲,我猜你會先上網看附近區域的實價登錄,這時候你就會搜尋同一個範圍的房價,甚至更精確一點你會直接查詢是否有跟你相同的建案出售,賣價為何?
一般衡量的指標都會是坪數,比如以下的搜尋結果
此時我們可以將每一個成交的單位,依照其坪數與成交價可以繪出下面的圖,每一個點代表一間房子的售價
假設現在我有一棟房子想要出售,基本上要剛好有一棟房子跟我一模一樣的機率是很小的,於是乎我將其鎖定在跟我家相去不遠,並且坪數大小差不多的房子,在這張示意圖中,我可以發現有兩間跟我家差不多的房子。
接著我們會忽略其他的房子,但是問題是,這樣合理嗎?
順著前例我們可以來討論,房價與坪數的關係,我們將迴歸分析應用在這個例子上時,最簡單的模型就是在數據上畫出一條直線,直線包含了
從中可以得到一個線性函數,但是此時問題來了,這在個函數裡面不會只有一個w會有好幾組,所以我們思考且回答的是,我們要選擇那一條w做為我們的模型呢?
常見的做法是,我們透過每一個點到劃出的直線中求出距離,這個距離代表著你的預測與真實的結果差了多少,透過殘差平方和的最小值來求得最適合的直線
我們需要做的就是將每一條的值給透過殘值平方和給求出來
最終我們可以得到一條讓殘值平方和為最小的直線
在些w最終的結果我們稱為w-hat,它將記住所有w0(斜率)與w1(截距)的集合,最終我們將可以透過這條來算我們的合理價格
原本我是打算通通用手寫來畫圖,但是我發現如果堅持這麼做,我可能會跑不完這30天,所以就引用了上課的投影片,畢竟已經不是學生惹,請大家見諒QAQ