想用 Python 處理 Excel 檔案的第一個步驟是用 Python 讀取 Excel 檔案中的資料。這篇文章介紹如何使用 Python 的 pandas 套件讀取 Excel 檔案。
pandas 是 Python 的一個數據處理和分析的工具,特別適用於處理結構化數據,能夠進行數據導入導出、清理、轉換、分析等操作。它有兩大數據結構:Series 和 DataFrame。Series 類似一維數據陣列,而 DataFrame 是類似 Excel 表格的二維的資料結構,也是之後文章中的主角。
如果還沒有安裝 pandas,可以使用以下指令安裝:
pip install pandas
openpyxl 是一個用於讀取和寫入 Excel 檔案的 Python 套件。它提供對 Excel 檔案進行格式化、插入圖表、群組欄位等操作。這使得 openpyxl 特別適合需要細緻控制 Excel 檔案的任務,例如自動化生成 Excel 檔案。
pandas 能使用 openpyxl 作為後端引擎讀取 .xlsx 或 .xlsm 格式的 Excel 檔案。如果還沒有安裝 openpyxl,可以使用以下指令安裝:
pip install openpyxl
pandas 透過 read_excel
函數將 Excel 檔案導入至 DataFrame 以便後續處理。
read_excel
的使用方式如下:
import pandas as pd
df = pd.read_excel('your_file.xlsx')
假設現在有檔案名稱為 example.xlsx 的 Excel 檔案需要讀取,則函式改寫如下:
import pandas as pd
# 讀取 Excel 檔案
df = pd.read_excel('example.xlsx')
# 顯示前五列數據
print(df.head())
pandas 讀取 Excel 檔案時會自動判斷欄位的資料格式,有時候雖然特定欄位的儲存格都是數字,但希望 pandas 將該欄位當成字串處理,此時可以在讀取 Excel 檔案時,使用 dtype
參數來指定特定欄位的資料格式。
例如以下例子希望 pandas 將 order_id
欄位當成字串欄位:
import pandas as pd
# 讀取 Excel 檔案並指定 'order_id' 欄位為字串類型
df = pd.read_excel('example.xlsx', dtype={'order_id': str})
# 顯示數據類型
print(df.dtypes)
這篇文章介紹如何使用 pandas 套件讀取 Excel 檔案,並分享如何指定欄位為字串類型。
dtype
參數可以指定某些欄位的數據類型。