iT邦幫忙

2021 iThome 鐵人賽

DAY 29
0
AI & Data

跟著文組生學數據分析系列 第 29

認識強大的Python套件:Pandas(下)

今天我們接著繼續和DataFrame繼續奮鬥!先把套件和檔案載入:

import pandas as pd
df = pd.read_csv('檔案名')

條件選擇

  • 單一條件篩選,搭配運算子
df['colum'] #篩選欄位名稱
df.loc[[index],[colum]] #篩選欄位名稱及行數
df[df['colum'] == "value"]] #篩選某個欄位的特定值
df[df['colum'] > "value"]]
  • 多條件篩選,運用& (And)與| (Or)
A = df['colum1'] == "value1"] #篩選某個欄位的特定值
B = df['colum2'] > "value2"]
df[A & B] #篩選同時滿足A與B條件
  • 去除重複值
A = df.drop_duplicateds(subset=['colum'], keep='first') #保留某欄位的第一個值(預設)

資料整理

新增資料:

  • insert():在指定的欄位位置新增資料
  • append():將資料一筆一筆傳入(以字典的形式)
  • concat():合併兩組資料

篩除資料:

  • drop():axis=1篩除欄,axis=0刪除列

資料排序:

  • sort_index():依照索引進行排序
  • sort_values():依照欄位內容進行排序

資料群組

在Pandas一樣有Excel樞紐分析表的功能,我們可以將資料進行分組運算:

df.groupby('colum').sum()

多欄位運算:

df.groupby(['colum1','coium2').sum()

以上是Pandas的簡單介紹,還有好多功能等著我們去發掘,下面提供更多閱讀資料,如果有興趣的朋友可以在更加深入研究看看!


更多延伸資料:

https://pandas.pydata.org/docs/user_guide/index.html

https://leemeng.tw/practical-pandas-tutorial-for-aspiring-data-scientists.html

Pandas也可以視覺化

https://allaboutdataanalysis.medium.com/資料視覺化-一篇文章詳細解讀pandas視覺化圖表-9bb663bae0cd

參考資料:

http://notebookpage1005.blogspot.com/2018/12/python-pandas.html


上一篇
認識強大的Python套件:Pandas(上)
下一篇
結束語&心得
系列文
跟著文組生學數據分析30

尚未有邦友留言

立即登入留言