iT邦幫忙

2022 iThome 鐵人賽

DAY 19
0
AI & Data

Machine Learning A-Z 學習筆記系列 第 19

[Day19] 評估回歸模型的表現(2) - AdjustedRSquared

  • 分享至 

  • xImage
  •  

這邊引用上課教材來說明
https://ithelp.ithome.com.tw/upload/images/20221004/20152557OnhfVztcKY.png

問題:
原本的R平方: 目標是找b0, b1, b2 參數使得剩餘平方和最小
現在:增加一個自變量到多元線性模型中, 擬合效果會變好還是變差? R平方會變大還是變小
結論: 新增自變量, 擬合效果不會變差, R平方永遠不會降低(和之前相同or更高)
為什麼:
假如可以找到一個b3 使得剩餘平方和變小, SSres/SStot 也會變小(分母不變), 那R平方就會變大
假如找不到一個b3可以使得剩餘平方和變小, 但最差情況下b3可選擇0
此時頂多相當於這個自變量沒有加, 所以R平方不會降低

Example:
假設x3=員工當月月績, 那新增x3 對薪資的擬合度就越高, R平方會增高, 因為可以通常月績和薪資也有一定的關係
假設x3=員工手機末三碼, 顯然跟員工薪資沒有關係, 但擬合出來的b3其實不會等於0, 會趨近於0(因為是用數學來擬合, 或多或少手機號碼和薪資有一些數學上的關係), 但這顯然和常理不符
R平方就算有上升也不代表對模型有更好的精準度
所以廣義的R平方也將變數的數量納入考慮

https://ithelp.ithome.com.tw/upload/images/20221004/20152557wI5clgMJL2.png
p: 自變量個數
n: 數據集中有多少點(數據個數) (和模型無關)

https://ithelp.ithome.com.tw/upload/images/20221004/20152557WDATKxFnNg.png
讓我們搭配顏色來推倒當新增變數會發生什麼事?
(紅色)當新增一個變數, p會變大
(灰色)n-p-1 會減少, n-1/n-p-1 就會變大
(藍色)因為新增變數所以依照原本R平方特性,R平方變大
(紫色)1-R平方變小
最關鍵的(紫色)下降(灰色)上升, 所以整個廣義R平方結果不一定會升高或降低

當新增手機末三碼這個變數後, (紫色)下降的幅度沒有(灰色)上升幅度多的時候, 可能導致廣義R平方下降, 此時就能反映出這個變數會降低精准度的事實


上一篇
[Day18] 評估回歸模型的表現(1) - R squared
下一篇
[Day20] 評估回歸模型的表現(3) - 實例探討R平方與廣義R平方
系列文
Machine Learning A-Z 學習筆記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言