iT邦幫忙

鐵人檔案

第 12 屆 iThome 鐵人賽
回列表
自我挑戰組

使用R進行探索式資料分析之初探 系列

最近興起了大數據、機器學習、類神經網路等等,但在學習的過程中發現這些的基礎是探索式資料分析,因為在探索時你會用到很多語法做查詢,發覺變數與變數之間的關係,進而從資料發現一些事實,也從這個過程中了解R對於資料集的處理。
從網路上可以找到很多R的資源及文章,但都很片段或是很像使用導引,在學習起來老實說很痛苦也做了很多的摸索,鑑此,才想參加此鐵人賽將自己的學習經驗彙總,以範例做導引避免艱深的理論,並以大量的範例增加對R的了解及對R語言掌握的信心。
若有不對之處,請各位不吝指教。

鐵人鍊成 | 共 30 篇文章 | 8 人訂閱 訂閱系列文 RSS系列文
DAY 1

R 探索式資料分析_引言

老實說以前沒聽過R是上了課教授開了大數據的課程才知道R是甚麼東西,但是在學習R的過程中從懵懂到囫圇吞棗的學習隱約了解R是甚麼東西,而在內心裡總是有種不踏實的感覺...

2020-09-01 ‧ 由 yujoe 分享
DAY 2

R的資料視覺化

隨著大數據一詞的流行資料視覺化再度被人們討論,其實資料視覺化在台灣20年前就在發展了,而資料視覺化其實每天都出現在我們的身邊,如常條圖、圓餅圖、流程圖、渲染圖、...

2020-09-02 ‧ 由 yujoe 分享
DAY 3

用R分析_人類在災難面前是否保有人性的光輝之一

鐵達尼沈船是一個世紀災難到了現在還是依然討論不止,今天我們使用R對於鐵達尼號的乘船資料進行分析,藉由資料的分析是否能發現人類在面對重大災難時是否保有人性的光輝,...

2020-09-03 ‧ 由 yujoe 分享
DAY 4

用R分析_人類在災難面前是否保有人性的光輝之二

上一篇文章有提到鐵達尼生存使用ggolo2套件繪製長條圖,而ggpolt2有一定的基本語法其實掌握了,對於你在執行資料視覺化的過程會非常方便,當然語法也有精簡的...

2020-09-04 ‧ 由 yujoe 分享
DAY 5

ggplot2探討車子油耗表現之一

上一篇以鐵達尼號的存活機率展示了ggplot2的操作性,而這一篇會再深入ggplot2一些參數和函式,當然ggplot2的參數及數量相當多,我會以最常用一些參數...

2020-09-05 ‧ 由 yujoe 分享
DAY 6

ggplot2探討車子油耗表現之二

上一篇我們藉由mpg資料集探討影響油耗的因素,我們使用散佈圖、顏色、構面等函式並將相關變數納入,呈現相關影響的油耗表現的統計圖,但我們都以散佈圖作為呈現,雖輔以...

2020-09-06 ‧ 由 yujoe 分享
DAY 7

geom_bar()函式的秘密

鐵達尼的資料集用geom_bar長條圖,本次資料集採用diamond R內鍵資料集,該資料集主要是描述鑽石大小以及切割的類別,首先看一下鑽石切割的統計數量 gg...

2020-09-07 ‧ 由 yujoe 分享
DAY 8

資料探索最佳工具_dplyr_filter()

在上一階段都在講ggplot2使用的資料集有鐵達尼、mpg、diamond,直接對變數或變數之間進行統計,這個方式是很有效也很快速了解你的資料集分析目的,但就像...

2020-09-08 ‧ 由 yujoe 分享
DAY 9

資料探索最佳工具dplyr_arrange()、select()、mutata()

arrange()函數一句話講完就是對資料做排序,老實說,以前在寫一些程式不是很注重因為都很簡單,所以都不太在意,而當我接觸大數據時發現一個排序竟然在龐大的資料...

2020-09-09 ‧ 由 yujoe 分享
DAY 10

資料探索最佳工具dplyr_分組彙總

今天這一篇文章會介紹三個觀念分別為summarise()、dplyr pipline、遺失值的處理 首先分組彙總summarise()必須搭配group_by來...

2020-09-10 ‧ 由 yujoe 分享