在大型數據當中,有時我們會需要透過群組的方式概括整體資料,除了用以觀察之外,也能進一步深入處理,本文將分享如何使用資料的分組和聚合操作,內容包含:
groupby( )
、get_group( )
agg( )
商品清單
程式碼
import pandas as pd
data = {'商品':['牛奶','奇異果','起司','葡萄','和牛','蘋果'],
'類別':['奶製品','水果','奶製品','水果','肉品','水果'],
'產地':['日本','紐西蘭','美國','紐西蘭','日本','美國'],
'單價':[189,40,109,200,350,35],
'數量':[5,125,32,15,24,89]}
df = pd.DataFrame(data)
Pandas 提供 groupby('欄位名稱')
將資料依據指定欄位進行分組,但不會改變原始數據或直接顯示內容,需使用 get_group('欲檢視的資料')
檢視特定資料。
舉例:將資料依照「產地」分組,並檢視來自「紐西蘭」的商品資訊
# 依「產地」分組
grouped = df.groupby('產地')
# 檢視「產地」中「紐西蘭」的商品資訊
print(grouped.get_group('紐西蘭'))
輸出結果:
使用 Pandas 提供的 groupby('欄位名稱')
將資料分組後,以 agg(func)
彙總和計算資料。
舉例:將資料依照「類別」分組,並計算產地數量、商品清單、平均價位
grouped = df.groupby('類別').agg({'產地':'count','商品':','.join,'單價':'mean'})
print(grouped)
輸出結果:
資料的分組 groupby( )
與聚合 agg( )
是數據分析中經常一起使用的組合,大家有空可以試試!如果有任何不理解、錯誤或其他方法想分享的話,歡迎留言給我!喜歡的話,也歡迎按讚訂閱唷!
我是 Eva,一位正在努力跨進資料科學領域的女子!我們下一篇文章見!Bye Bye~
【本篇文章將同步更新於個人的 Medium,期待與您的相遇!】