鐵人賽過了今天就算完成helf了!我們也完成了三個主題的複習:
自己跑過半馬10幾次,就是沒跑過全程馬拉松,繼續往前跑,下半helf主題。
Day12-Day14複習了外部資料介面,有了資料集,接下來我們就可以開始觀察資料、分析資料了。
統計是資料分析的基礎,今天先選擇幾個簡單的敘述統計分析函數來複習:
敘述統計是描述資料分佈的特性,可以描述資料的:
mean
)、中位數(median
)、眾數(mode
))sd
)、變異數(var
)、變異係數(cv
)、全距(range
)、四分位(Quartile
))我們在資料夾MyR新增一支Day15.R
先觀察一個維度資料,在Day15.R中輸入程式碼
n <- c(1,1,2,4,6)
plot(n, pch = 17, col = "blue", cex =2)
執行結果:
X軸是數值Index,Y軸是數值
接著作一維資料簡單的統計,在Day15.R中輸入程式碼
#總合
sum(n)
#平均數 總合除個數
mean(n)
#中位數:將資料由小到大,位置居中者,就是中位數
median(n)
#眾數:一組資料中,出現最多次數的值
as.numeric(names(table(n)))[which.max(table(n))]
#畫平均數的點
points(mean(n), pch = 4, col = "blue", cex = 3)
#畫中位數的點
points(median(n), pch = 3, col = "blue", cex = 3)
R互動視窗執行結果:
R plot視窗執行結果
集中趨勢在2-3的值間。
有時候大起大落的表現會讓平均數(Mean
)失真,要觀察選手表現是否穩定,標準差(sd
:standard deviation)等離散趨勢函數就可以反應比較真實的數值離散程度。
在Day15.R中輸入程式碼
n <- (1:10)
#標準差
sd(n)
#變異數
var(n)
sd(n) ^ 2
#變異係數
cv <- 100 * sd(n) / mean(n)
cv
#全距(最大值減最小值)
range(n)[2] - range(n)[1]
#四分位:把資料切分為四等分,中間的三條線就是四分位,Q1=P25,Q2=P50,Q3=75
Q1 <- quantile(n, 1 / 4)
Q2 <- quantile(n, 2 / 4)
Q3 <- quantile(n, 3 / 4)
Q1
Q2
Q3
#IQR = Q3-Q1
b <- Q3 - Q1 == IQR(n)
b
執行結果
一次總結數據
在Day15.R中輸入程式碼
#總結數據(超好用)
summary(n)
#百分位
quantile(n)
執行結果
THE ROCK
2014.10月攝於直布羅陀半島,英屬地