資處算是完成了吧,現階段想用大概這些變數(列在後面當備註),其中一些是經過運算的,像是保險分成是否有投:強制汽車責任險、任意汽車第三人責任險、乘客責任險、車體損失險、竊盜險、其他等等,每個都當一個變數的話好像有點浮誇,所以我決定用"額外保險數量"取而待之,如果是用Excel運算的話也可以,但是推薦一下R,號稱向量運算很快
q = read.table("clipboard",header = T , sep = '\t')
q[is.na(q)] = 0
apply(q,1,sum)
apply(q,2,sum)
是真的滿方便的。
然後我試圖跑跑看關連法則
library(arules)
#paste(Sys.getenv("USERNAME")) 話說這行很方便,讓所有電腦都通用
x = read.csv(paste0("C:\\Users\\",paste(Sys.getenv("USERNAME")),"\\Desktop\\Day 5 資料.csv"))
xx = x #測試比較方便,要不然失敗就要從跑一次read.csv,所以我習慣都會在另外設定一個變數
#讓數據變成因子型態才能跑關聯法則
for(i in c(1:length(x)))
xx[,i] = as.factor(xx[,i])
#apriori的關聯法則,我把sup跟con都調很低了一直沒看到一天營業總收入...
rules<- apriori(xx,parameter = list(supp = 0.1 , conf = 0.1),control = list(verbose = F ))
summary(rules)
rules.sorted = sort(rules,by= "confidence")
#這樣做一個which的話,可以只挑出"一天營業總收入"的選項
#本來以為這是我想到的寫法,不過想想,我依然無法阻止電腦都運算,好像也沒特別厲害
View(inspect(rules.sorted)[which(grepl("一天營業總收入",inspect(rules.sorted)$rhs)),])
結果讓我超挫折的..
啥都沒有mining到...摁,我覺得還有很多地方可以好好思考為何失敗,今天先到這邊吧!
(剛剛發現雄俠貼圖XDD不知道有沒有出line版哈哈)
*註:
經營型態
巡迴攬客
招呼站等候
定點(不含招呼站)排班
車行等候
無線電或衛星派車
公里數
每天行駛公里數
每月放假天數
營業時數
每天空車時數
空繞行駛里程
載客趟數
每天載客人數
計程車預計幾年後折舊
105有無考慮停開計程車
加入無線電或衛星派遣車隊
一天營業總收入
額外保險數量
年齡
教育程度
工作總年資
選擇開計程車之最主要原因
最主要營業縣市