資料處理必修：用 pandas 整理職場常見資料集

2025 iThome 鐵人賽

DAY 4

生成式 AI

《AI 新手到職場應用：深度學習 30 天實戰》系列第 4 篇

17th鐵人賽

liao07211270

2025-09-18 00:23:11

387 瀏覽

分享至

在學深度學習之前，我們先要認識 「資料處理」 這件事。
因為 AI 模型吃的是資料，如果原始資料是亂七八糟的，
模型再聰明也只能學到一堆垃圾。
就像你在做一份財務報表，如果數字和日期都填錯了，最後的結論一定不可靠。

而在 Python 的世界裡，最常用來處理資料的工具就是 「pandas」。

pandas 是什麼？

pandas 是 Python 的一個函式庫，專門用來處理表格型態的資料。
你可以把它想像成 「升級版的 Excel」 ，
但它更強大、更快速，而且能處理更龐大的資料。

舉例來說：
在 Excel 裡，你可能需要拉一堆公式來做加總、篩選。
但在 pandas 裡，只要一行程式，就能做出同樣甚至更複雜的結果。
而且，pandas 可以直接把 CSV、Excel、SQL 資料庫的資料載入，
讓我們可以快速開始分析。
這就是為什麼職場上很多數據分析師、AI 工程師，都離不開 pandas。

pandas 的兩大核心資料型態

在開始操作之前，要先搞清楚 pandas 的 「靈魂角色」 ：

Series（一維資料）:

Series 可以想像成 「一欄 Excel 的資料」 。
例如一組「員工年齡」：

25, 30, 28, 35, 40

在 pandas 裡，這就是一個 Series。

DataFrame（二維資料）:

DataFrame 則可以想像成 「整張 Excel 表格」 ，裡面有多個欄位。
例如一份「員工資料表」：

姓名    年齡    部門
田一明  25     行銷
陳小華  30     財務
梅帥哥  48     IT

在 pandas 裡，這張表格就會是一個 DataFrame。
我們也可以這樣理解：

Series = 一欄
DataFrame = 多欄組成的一張表格

這兩個就是我們在處理資料的兩個核心重要物件。

實例操作：用 pandas 整理一份員工資料

現在我來做一個簡單的實例操作，我建立了一個類似部門人員資料的 CSV 檔，
內容如下（work.csv）：

而我們今天的目標要用 pandas 做以下三件事：
讀取資料、篩選出「行銷部門」的員工、算出所有員工的平均年齡。
以下是我們要執行的程式碼:

import pandas as pd  # 載入 pandas

from google.colab import files
uploaded = files.upload()

# 1. 讀取 CSV 檔
df = pd.read_csv("work.csv")

print("=== 原始資料 ===")
print(df)

# 2. 篩選出行銷部門
marketing = df[df["部門"] == "行銷"]
print("\n=== 行銷部門 ===")
print(marketing)

# 3. 計算平均年齡
avg_age = df["年齡"].mean()
print("\n所有員工的平均年齡：", avg_age)

這邊簡短對程式碼進行解釋:
我們要先創立一個資料上傳的地方，讓網頁可以正確地讀取到我們的csv檔案，
再來就是很基礎的程式碼概念，並利用了pandas的計算函數「mean」，
就可以很輕鬆地把年齡平均計算出來了。