iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 5
0
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列 第 5

[Day 5] 政府開放資料_計程車營運狀況調查(資處篇-3)

  • 分享至 

  • xImage
  •  

資處算是完成了吧,現階段想用大概這些變數(列在後面當備註),其中一些是經過運算的,像是保險分成是否有投:強制汽車責任險、任意汽車第三人責任險、乘客責任險、車體損失險、竊盜險、其他等等,每個都當一個變數的話好像有點浮誇,所以我決定用"額外保險數量"取而待之,如果是用Excel運算的話也可以,但是推薦一下R,號稱向量運算很快

q = read.table("clipboard",header = T , sep = '\t')
q[is.na(q)] = 0 
apply(q,1,sum)
apply(q,2,sum)

https://ithelp.ithome.com.tw/upload/images/20181017/201116035TVHqUWbQB.png
是真的滿方便的。

然後我試圖跑跑看關連法則

library(arules)

#paste(Sys.getenv("USERNAME")) 話說這行很方便,讓所有電腦都通用

x = read.csv(paste0("C:\\Users\\",paste(Sys.getenv("USERNAME")),"\\Desktop\\Day 5 資料.csv"))

xx = x #測試比較方便,要不然失敗就要從跑一次read.csv,所以我習慣都會在另外設定一個變數

#讓數據變成因子型態才能跑關聯法則
for(i  in c(1:length(x)))
xx[,i] = as.factor(xx[,i])
#apriori的關聯法則,我把sup跟con都調很低了一直沒看到一天營業總收入...
rules<- apriori(xx,parameter = list(supp = 0.1 , conf = 0.1),control = list(verbose = F ))
summary(rules)
rules.sorted = sort(rules,by= "confidence")
#這樣做一個which的話,可以只挑出"一天營業總收入"的選項
#本來以為這是我想到的寫法,不過想想,我依然無法阻止電腦都運算,好像也沒特別厲害
View(inspect(rules.sorted)[which(grepl("一天營業總收入",inspect(rules.sorted)$rhs)),])

結果讓我超挫折的..
https://ithelp.ithome.com.tw/upload/images/20181017/20111603w8SggWe3pU.png
啥都沒有mining到...摁,我覺得還有很多地方可以好好思考為何失敗,今天先到這邊吧!

/images/emoticon/emoticon77.gif(剛剛發現雄俠貼圖XDD不知道有沒有出line版哈哈)
*註:
經營型態
巡迴攬客
招呼站等候
定點(不含招呼站)排班
車行等候
無線電或衛星派車
公里數
每天行駛公里數
每月放假天數
營業時數
每天空車時數
空繞行駛里程
載客趟數
每天載客人數
計程車預計幾年後折舊
105有無考慮停開計程車
加入無線電或衛星派遣車隊
一天營業總收入
額外保險數量
年齡
教育程度
工作總年資
選擇開計程車之最主要原因
最主要營業縣市


上一篇
[Day 4] 政府開放資料_計程車營運狀況調查(番外-1)(R視覺化資料)
下一篇
[Day 6] 政府開放資料_計程車營運狀況調查_決策樹篇
系列文
機器學習_資料採礦_透過數據協助決策_R語言30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言