[Day 9] 政府開放資料_計程車營運狀況調查_回歸診斷

2019 iT 邦幫忙鐵人賽

DAY 9

AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列第 9 篇

2019鐵人賽

yanchen

2018-10-21 22:33:26

3075 瀏覽

分享至

"回歸診斷"，其實這是個我很有興趣的命題，但很無奈學校沒教，我也不知道要去哪裡才能學到這些知識，診斷是第一步，重要的是第二步，準診斷之後如何更正確的建立模型。問過現在在台灣唸研究所的同學也沒有答案...，摁...我想，如果真的想成為統計研究員，在台灣應該是沒有機會了。

講是這樣講啦！雖然我不會修正模型，但是診斷模型好像也是可以試試看，從常態性檢定開始吧！
(資料都是這次的計程車營運狀況調查)

library(car)
qqPlot(fit,labels=row.names(states),id.method="identify",simulate=TRUE,main="Q-Q Plot")

這個問題困擾我很久了，就是..這張圖統計系人人都會畫，但是這張圖畫完接下來呢？

我在網路上找到一篇文章，他的方法值得我效尤，不知道這張圖要怎麼看嗎？很簡單，把各種狀況都畫出來不就好了嗎？看自己畫出來的圖跟常態、偏態、高低狹的圖做比較，就能判斷自己的殘差事屬於哪種類型。(別人的程式碼我就不上了，下面會有參考網址)

硬要說的話比較偏向正偏吧！但其實是很接近常態分佈了。

Q-Q plot：常態機率圖,是一種能看出資料分布情形,是否符合常態分配的圖.
橫軸顯示的是理論分位數,縱軸則是樣本分位數,資料點散佈於圖上,並有一條虛擬的常態線通過.

資料參考：https://read01.com/PjzReP.html#.W8xIefYzaUn
資料參考：https://www.surfacewalker.com/single-post/2017/03/22/R-language-%E5%B8%B8%E6%85%8BQ-Q%E5%9C%96normal-Q-Q-plot%E7%B0%A1%E4%BB%8B%E8%88%87%E7%B9%AA%E8%A3%BD

如果繪製student-殘差圖，這筆資料是真的還挺不錯，常態部分沒什麼需要修正的。
殘差值:（真實值-預測值）

residplot<-function(fit,nbreaks=10){
  z<-rstudent(fit)
  hist(z,breaks=nbreaks,freq=FALSE,
       xlab="Studnetized Residual",
       main="Distribution of Errors")
  rug(jitter(z),col="brown")
  curve(dnorm(x,mean=mean(z),sd=sd(z)),
        add=TRUE,col="blue",lwd=2)
  lines(density(z)$x,density(z)$y,
        col="red",lwd=2,lty=2)
  legend("topright",
          legend=c("Normal Curve","Kernel Density Curve"),
          lty=1:2,col=c("blue","red"),cex=0.7)}
residplot(fit)