iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 12
0
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列 第 12

[Day 12] 政府開放資料_計程車營運狀況調查_回歸預測

預測,我們建立模型的目的,是要用來預測以及求出最佳解的!在R語言當中,建完模型就可以透過R_code 的 predict() 輸入你當下的狀態,從而得知你現在的收入受否合乎理論。


new.xx <- data.frame("經營型態" = 1,"巡迴攬客"=1,"招呼站等候"=1,"定點.不含招呼站.排班"=1,
                     "車行等候" = 1,"已行駛公里數" =3,  "每月放假"    =5   ,"營業時數"=3,  
                     "每天空車時數" =2,"X105考慮停開計程車" =1,"加入無線電或衛星派遣車隊"=1, 
                     "年齡"  =3   , "教育程度"=2,"工作總年資"=2,"選擇開計程車之最主要原因"=1,
                     "最主要營業縣市"=1,"設置廣告物"=1,"性別"=1,"輪流駕駛" =1)
new.xx
predict(fit, new.xx) #fit是之前建立的模型

https://ithelp.ithome.com.tw/upload/images/20181024/20111603UrhZypFjrN.png

只要輸入你的基本資料(如上程式碼),這個模型就能幫你預測你一天的所得薪資,我們應用自己建立的迴歸模型預測自己的薪水。我建立這個模型的目的有兩個,一個是像我十天前所說:我想要知道最好的特徵是哪些,以及現在已經完成的這部分,對現有狀態進行預測。

實務上進行"即時監控"我也有運用predict迴歸預測,"當下數據"與之前所有數據建立起來的迴歸模型為95%信賴區間以外的數值則會被抓出來討論離群值的原因,一次又一次抓出離群值後人工修正規則,讓抓出來的離群值越來越合理。
聽起來很不合理沒錯,明明是機器學習卻"人工修正規則"?
應該說這東西比較偏向是羅吉斯迴歸,y值只有合理跟不合理(yes or no)。要先人工判斷是(yes or no)然後自己每一天蒐集數據,最後才能自己拿來分析。要不然哪來的數據哈哈。

之後會再寫oversampling的東西,很久沒有這樣每天熬夜念書了,彷彿學生時代期中考似的,累歸累但還是挺有成就感的。


上一篇
[Day 11] 政府開放資料_計程車營運狀況調查_填補遺失值
下一篇
[Day 13] 政府開放資料_計程車營運狀況調查_回歸(數值與類別變數補充)
系列文
機器學習_資料採礦_透過數據協助決策_R語言30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言