iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 8
0
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列 第 8

[Day 8] 政府開放資料_計程車營運狀況調查_簡單回歸

統計學最基本的三大估計方法:動差估計、最大概似估計、最小平方法。 回歸分析就是最小平方法最廣為人知的應用了。(不是說決策樹篇結束了,我把書都放在公司忘記帶回家了,很尷尬哈哈哈。)

其實如果只是用程式碼做回歸,老實說任誰都行,最基本的程式碼如下:

fit<-lm(一天營業總收入~.,data=xx)
summary(fit)

https://ithelp.ithome.com.tw/upload/images/20181020/20111603N8D3nIv2AK.png

所以我根據這張圖,我發現
1.有定點、有排班營業總收入up
2.心理素質很重要,有考慮過停開計程車的人營業總收入較低
3.教育程度太低營業總收入較低(但結果"並沒有"告訴我教育程度高就比較好)
4.兼職賺取外快的確賺得少
5.在台北市賺得比較多
6.有設置廣告物賺得比較多

這樣看起來好像是很不錯的分析,但這些都是建立在"各種"假設之下的,如果今天是一個一般數據分析師想要跟老闆交差,這樣的內容我覺得還不錯了。
回歸四大假設

(1) 常態性假設

(2) 獨立性

(3) 線性相關

(4) 變異數同質性

而身為統計人,最重要的是如何確認模型的正確、驗證結果並且找到最佳模型。

par(mfrow=c(2,2))

plot(fit)

https://ithelp.ithome.com.tw/upload/images/20181020/20111603vrCzVBVQXm.png

待續...


上一篇
[Day 7] 政府開放資料_計程車營運狀況調查_決策樹篇-2
下一篇
[Day 9] 政府開放資料_計程車營運狀況調查_回歸診斷
系列文
機器學習_資料採礦_透過數據協助決策_R語言30

尚未有邦友留言

立即登入留言