iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 3
0
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列 第 3

[Day 3] 政府開放資料_計程車營運狀況調查(資處篇-2)

具備怎樣特質的計程車司機是最賺錢的呢?(開頭都這句哈哈)
今天繼續努力做資料處理,昨天我本來想用迴圈處理所有變數,看樣子我太天真了,想要整理好數據,看樣子還是得把所有變數都看過一輪才行(好像也是可以不用啦,但我想把變數都釐清在開始作業),但重點還是因為他的空值亂七八糟(參照[Day 2]),讓我覺得很痛苦。

總之我很直觀的看過半輪變數名稱(149個變數看一半而已)(抱歉明天估計是把另外一半處理完...沒有在混啦而且我估計這段是最累的部分了),把一些完全無關緊要的刪掉然後用上一篇for迴圈控制大量使用RCODE進行vlookup,成品大概長這樣。看起來清楚多了!

https://ithelp.ithome.com.tw/upload/images/20181015/201116037B9EwFUpCf.png

不然原本的data我對他一點想法都沒有..
https://ithelp.ithome.com.tw/upload/images/20181015/20111603J2TgOo0pmW.png

分享一下在處理資料的心得吧,雖然是寫r_code,但如果Excel處理更快的話,請善用Excel不要裝逼。

操作上比較值得一提的部分

x = read.csv("106年計程車營運狀況調查原始資料csv")[1:20,]

因為是測試階段,在後面打[1:20,]只顯示前20行可以讓速度快很多,或是用as.tibble()也行。

library(psych)
q = read.table("clipboard",header = F , sep = '\t')
zz = parse_guess(unlist(q))
describe(zz)

boxplot(zz,
        main="計程車司機一天營業總收入",
        ylab = "金額",   
        col ="gray"
        )

hist(parse_guess(unlist(q)))

稍微用R_code看看計程車司機的收入分配,vlookup完之後可以直接複製vlookup那行,跑第二行,q就會是複製的資料,然後這筆資料R不認為他是數字(可能後面有1500.0所以R以為他是文字),所以要打parse_guess()讓R"猜"出他是數字才能運算這筆資料
基本的敘述性統計describe,然後附上R的合型圖以及hist圖

https://ithelp.ithome.com.tw/upload/images/20181015/20111603sXTX9Ucf74.png

https://ithelp.ithome.com.tw/upload/images/20181015/20111603iwTXYXPMbY.png

各位明天見!(再...再讓我資處兩天...之後會很好玩的!)


上一篇
[Day 2] 政府開放資料_計程車營運狀況調查(資處篇-1)
下一篇
[Day 4] 政府開放資料_計程車營運狀況調查(番外-1)(R視覺化資料)
系列文
機器學習_資料採礦_透過數據協助決策_R語言30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言