之前有提過的Logistic Regression是被分類在「classification」分類的功能中,而線性回歸或是多變數線性回歸等等是被分類在「prediction」預測的功能中。在這裡介紹簡單線性回歸好像有點奇怪,就用scikit-learn所介紹的方法(連結),來簡單說明一下~
回歸的測試算法是用均方誤差(Mean squared error, MSE)去計算的。簡單回歸的概念是y=X * w,而均方誤差的算法是,透過已知的y0跟X0(就是訓練集)去找出相關係數w。而w的找法是透過y1=X0 * w 跟實際已知之y0比較,找出結果誤差最小的w係數。我的訓練集中有好多組資料點,於是我可以把每個誤差平方起來(避免正負相抵的效果)然後相加。
但是這個算法有些缺點,是很容易受極端值影響,改善的方法是可以在資料清洗階段先清除異常值,不然就是用之後會介紹的脊回歸Ridge Regression去做。