iT邦幫忙

2024 iThome 鐵人賽

DAY 19
0
自我挑戰組

R語言初學紀錄系列 第 19

DAY19-R語言 資料處理dplyr套件part.1 介紹

  • 分享至 

  • xImage
  •  

前言:今天要講另一種資料處理的方法~如果內容有哪些錯誤的地方,請多多包涵~


正文開始-->
首先呢,R語言充滿了各種套件,今天要講的dplyr套件只是其中一種。而此套鑑識R語言中一個名為tidyverse套件系統中的其中一項。tidyverse套件系統的核心包括了:

  • ggplot2:視覺化分析。
  • purrr:執行迴圈。
  • tibble:增強資料框架。
  • dplyr:資料處裡。
  • tidyr:精簡資料。
  • stringr:字串整理。
  • readr:資料輸入。
  • forcats:處理類別變數。
    因為內容太多了,所以只會挑兩個出來講~ggplot2的介紹會在之後的章節出現!以下開始啦~

【dplyr套件】
是一種資料處理器,相比前面的資料處理函數,dplyr() 套件中融入了許多概念與結構化查詢語言(Structured Query Language,SQL)相仿的函數,會搭配 %>% 運算子一起使用,使處理資料的效率變得更高。

【安裝載入】
關於安裝載入的語法就如前面套件篇所說的,輸入

  • install.packages("dplyr"):安裝套件。
  • library(dplyr):載入套件。

【常用函數】
dplyr套件中所提供的常用函數如下

  • filter():選要分析的觀察值,觀察列子集(Row)。
  • select():選要分析的欄位,欄位子集(Column)。
  • mutate():增加新欄位。
  • summarise():計算統計值。
  • group_by():依照類別變數分組,常搭配 summarise() 函數。
  • arrange():依照變數排序觀測值。
  • rename():欄位重新命名。
  • %>%:the “pipe” operator 連結上數函式,將所有函式計算串在一起執行。

參考:

  1. https://bookdown.org/jefflinmd38/r4biost/basictidy.html
  2. https://yijutseng.github.io/DataScienceRBook/eda.html#dplyr
  3. https://bookdown.org/tonykuoyj/eloquentr/dplyr.html

上一篇
DAY18-R語言 基本函數part.2 基本應用
下一篇
DAY20-R語言 資料處理dplyr套件part.2 函式應用
系列文
R語言初學紀錄22
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言