iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 4
0
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列 第 4

[Day 4] 政府開放資料_計程車營運狀況調查(番外-1)(R視覺化資料)

用盒狀圖視覺化數值型態的資料,其實也不是說我今天沒做資料處理,應該說在資處的時候發現有滿多還算有意思的數據,例如下面這個"計程車車輛總價",就會想看看他的分佈,這邊提供一個簡單方便的程式碼。

把你要的數據複製起來跑這行,可以讓資料直接進入你的R。

data = read.table("clipboard",header = F , sep = '\t')

一樣,如果library沒有的話請先安裝(但其實這個沒有很重要)

library(psych)
library(tidyverse)

par(mfrow=c(1,2))

data = parse_number(unlist(data))

word = describe(data)

boxplot(data,
        main="計程車車輛總價",
        ylab = "金額",  
        col ="gray"
)
hist(parse_number(unlist(data)),main="計程車司機一天營業總收入",
     ylab = "出現次數",   
     xlab = "金額",
     col ="gray")

https://ithelp.ithome.com.tw/upload/images/20181016/20111603toqsTQuHyM.png
噢...看樣子有人車買太好,這樣啥都看不出來。我把最後1%的炫富仔砍掉。

data = data[order(data)]
data1 = data[1:(length(data)*0.99)]

boxplot(data1,
        main="計程車車輛總價",
        ylab = "金額",   
        col ="gray"
)
hist(parse_number(unlist(data1)),main="計程車司機一天營業總收入",
     ylab = "出現次數",   
     xlab = "金額",
     col ="gray")

https://ithelp.ithome.com.tw/upload/images/20181016/20111603rmL4YM0WE1.png

這樣就滿清楚了吧!
同理,只要是數值形態的數據就可以用這個方法稍微看看,之前有學弟妹問要怎樣看一筆資料是不是常態分配,我覺得
1.中位數要接近平均數
2.就是看這種圖了吧

(寫好了看到數據就可以直接複製貼上馬上跑出圖)
https://ithelp.ithome.com.tw/upload/images/20181016/201116038ZY0DMydRn.png

這篇比較像是分享程式碼,其實這種形態我寫起來會比較輕鬆,而且我覺得對大部分的人可能更有意義一些,畢竟我自己在工作,其實很多時候做的就是這樣是覺化的工作,把一行數據變成圖片呈現給老大(老闆)看。

但我想做的是事前預測啊,我的目標是用結構方程模型、主成分分析、關連法則、資料採礦的方式分析數據,然後如果想要學更多畫圖(ggplot)的內容,我的同事也有在板上寫,幫他打個廣告哈哈(https://ithelp.ithome.com.tw/users/20112574/profile )有機會的話去看看吧!


上一篇
[Day 3] 政府開放資料_計程車營運狀況調查(資處篇-2)
下一篇
[Day 5] 政府開放資料_計程車營運狀況調查(資處篇-3)
系列文
機器學習_資料採礦_透過數據協助決策_R語言30

1 則留言

0

我要留言

立即登入留言