統計學最基本的三大估計方法:動差估計、最大概似估計、最小平方法。 回歸分析就是最小平方法最廣為人知的應用了。(不是說決策樹篇結束了,我把書都放在公司忘記帶回家了,很尷尬哈哈哈。)
其實如果只是用程式碼做回歸,老實說任誰都行,最基本的程式碼如下:
fit<-lm(一天營業總收入~.,data=xx)
summary(fit)
所以我根據這張圖,我發現
1.有定點、有排班營業總收入up
2.心理素質很重要,有考慮過停開計程車的人營業總收入較低
3.教育程度太低營業總收入較低(但結果"並沒有"告訴我教育程度高就比較好)
4.兼職賺取外快的確賺得少
5.在台北市賺得比較多
6.有設置廣告物賺得比較多
這樣看起來好像是很不錯的分析,但這些都是建立在"各種"假設之下的,如果今天是一個一般數據分析師想要跟老闆交差,這樣的內容我覺得還不錯了。
回歸四大假設
(1) 常態性假設
(2) 獨立性
(3) 線性相關
(4) 變異數同質性
而身為統計人,最重要的是如何確認模型的正確、驗證結果並且找到最佳模型。
par(mfrow=c(2,2))
plot(fit)
待續...