前言:今天要講另一種資料處理的方法~如果內容有哪些錯誤的地方,請多多包涵~
正文開始-->
首先呢,R語言充滿了各種套件,今天要講的dplyr套件只是其中一種。而此套鑑識R語言中一個名為tidyverse套件系統中的其中一項。tidyverse套件系統的核心包括了:
ggplot2:視覺化分析。purrr:執行迴圈。tibble:增強資料框架。dplyr:資料處裡。tidyr:精簡資料。stringr:字串整理。readr:資料輸入。forcats:處理類別變數。【dplyr套件】
是一種資料處理器,相比前面的資料處理函數,dplyr() 套件中融入了許多概念與結構化查詢語言(Structured Query Language,SQL)相仿的函數,會搭配 %>% 運算子一起使用,使處理資料的效率變得更高。
【安裝載入】
關於安裝載入的語法就如前面套件篇所說的,輸入
install.packages("dplyr"):安裝套件。library(dplyr):載入套件。【常用函數】
dplyr套件中所提供的常用函數如下
filter():選要分析的觀察值,觀察列子集(Row)。select():選要分析的欄位,欄位子集(Column)。mutate():增加新欄位。summarise():計算統計值。group_by():依照類別變數分組,常搭配 summarise() 函數。arrange():依照變數排序觀測值。rename():欄位重新命名。%>%:the “pipe” operator 連結上數函式,將所有函式計算串在一起執行。參考: