Day 06 : 資料處理 Pandas (2)

2021 iThome 鐵人賽

DAY 6

自我挑戰組

Python資料分析學習地圖系列第 6 篇

13th鐵人賽 python系列文章 python入門 pandas

皮卡丘打排球

2021-09-18 11:15:37

2597 瀏覽

分享至

今天接著介紹 pandas 如何表對資料表合併、資料匯總等等進階用法！

資料表合併

inner join

假設有X表和Y表，我們想要取兩邊都有的資料，就會用到 inner join。
下圖代表僅會留下白色交集的資料。

這邊的 id 代表兩張表都有的 key 值

pd.merge(X, Y, on='id', how='inner')

left join

以 X 表為母體表，代表 X 表的資訊都不能遺漏；將 Y 表當作額外的資訊參考，就會用到 left join
下圖會留下紅色圈圈的資料。

pd.merge(X, Y, on='id', how='left')

如果左右鍵值不一樣的話可以改成

pd.merge(X, Y, left_on='id1', right_on='id2', how='left')

資料匯總

統計資料

描述性統計

df.describe()

相關係數

df.corr()

groupby

以 Survived 為基底，對於所有欄位做計算

df.groupby('Survived').count()

以兩種以上的欄位為基底，對其他的欄位做計算

df.groupby(['Survived','Sex']).count()

計算也可以使用多種方法

df.groupby(['Survived']).aggregate(['min', 'max', 'mean', 'median'])

pivot table

類似 excel 的資料樞紐，更多請參考文件

pd.pivot_table(df, index=['Survived'], aggfunc=['mean', 'median'])

私心推薦

以上的招式非常多，初學者也很難在短時間內就上手起來。因此這裡推薦可以使用一個神人套件 pandas_profile

安裝方式

pip install pandas-profiling

使用方式

profile = ProfileReport(df, title="Pandas Profiling Report")
profile

# Saving the report
profile.to_file("report.html")

接著在 notebook 就會出現可以互動式的結果，可以快速瀏覽這份資料集的概況，是資料分析工具的一大利器。

資料匯出

df.to_excel('filename.xlsx')
df.to_csv('filename.csv')

Day 05 : 資料處理 Pandas (1)

Day 07 : 資料視覺化Ｍatplotlib

系列文

Python資料分析學習地圖共 30 篇

RSS系列文訂閱系列文

32 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22202 篇

完賽人數

600 人

從零開始，資料開放平臺的雲原生化與除雷經驗談

Cloud Summit 臺灣雲端大會 |

36 分

在 Nutanix 混合多雲平台運行任何應用程式、資料、AI、Kubernetes

Cloud Summit 臺灣雲端大會 |

28 分

Shadcn ui ～不再從零開始刻前端元件的生活～

Hello World Dev Conference |

26 分

迎向未來體驗：雲遊戲、元宇宙

IT EXPLAINED |

40 分

國泰中台微服務供應鏈的挑戰

Cloud Summit 臺灣雲端大會 |

27 分

創新容器平台架構，極速實現雲原生開發效益＆ AMD EPYC™ 為雲而生的資料中心處理器

IT EXPLAINED |

41 分

DevOps加入Biz 提現DevOps在企業價值定位

DevOpsDays |

41 分

業務戰略數位轉型成功關鍵

23 分

從資安事件反思如何安全有效管理企業資訊安全及資料備份

臺灣資安大會 |

25 分

無程式碼/低程式碼的市場趨勢及業務改善實例！

Cloud Summit 臺灣雲端大會 |

20 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

Python資料分析學習地圖系列 第 6 篇