[Day 10] 回歸分析的診斷以及驗證-2

2019 iT 邦幫忙鐵人賽

DAY 10

AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列第 10 篇

2019鐵人賽

yanchen

2018-10-22 21:57:38

4065 瀏覽

分享至

資料+統計+演算法，我們稱為機器學習，如何不斷修正統計模型，達到更好的預測，便是數據分析師的工作。
我們確保的一件事情，數據越多，我們就能做出更好的預測。因此模型不是建立就好，更重要的是確保模型的正確性以及預測能力。

fit<-lm(一天營業總收入~.,data=xx)
summary(fit)

Residual standard error: 595.5
這是RMSE，是回歸分析上的一種指標，計算殘差的標準差，越小值代表使用模型預估出來的預測值和實際值的誤差越小，越接近真實情況，此模型的特性是會對數值中的特異值會有比較大的放大效果，這東西的數值不見得有意義，通常是用來比較兩個模型的好與壞。

R^2: 0.3189, Adjusted R^2: 0.3122
在回歸分析上R^2也是很好的指標，R^2代表迴歸能夠解釋的變數，最大值為1，與RMSE不同的是被標準化過了，可以看出能夠解釋幾 %的資料(以我的回歸來說，只能解釋3成多一點的資料，這...其實是好事啦，表示我後面有很多修正空間)。R^2在Excel有內建，非常方便。(有興趣可以找找很簡單的，而且在excel裡甚至要做次方、指數回歸線的討論都很簡單，唯一的缺點就是excel有資料筆數限制吧，然後跑比較慢，要不然我其實大多時間也是尻excel在做這件事)