Python pandas 讀取 Excel 檔案【Python 處理 Excel #2】

2024 iThome 鐵人賽

DAY 2

Python

30 天學會用 Python pandas 和 openpyxl 處理 Excel —— 成為用 Python 處理 Excel 檔案的高手系列第 2 篇

16th鐵人賽 python excel pandas openpyxl

april

2024-09-15 16:12:05

751 瀏覽

分享至

本篇文章同步發布於 Python pandas 讀取 Excel 檔案【Python 處理 Excel #2】

前言

想用 Python 處理 Excel 檔案的第一個步驟是用 Python 讀取 Excel 檔案中的資料。這篇文章介紹如何使用 Python 的 pandas 套件讀取 Excel 檔案。

pandas 套件介紹

pandas 是 Python 的一個數據處理和分析的工具，特別適用於處理結構化數據，能夠進行數據導入導出、清理、轉換、分析等操作。它有兩大數據結構：Series 和 DataFrame。Series 類似一維數據陣列，而 DataFrame 是類似 Excel 表格的二維的資料結構，也是之後文章中的主角。

如果還沒有安裝 pandas，可以使用以下指令安裝：

pip install pandas

openpyxl 套件介紹

openpyxl 是一個用於讀取和寫入 Excel 檔案的 Python 套件。它提供對 Excel 檔案進行格式化、插入圖表、群組欄位等操作。這使得 openpyxl 特別適合需要細緻控制 Excel 檔案的任務，例如自動化生成 Excel 檔案。

pandas 能使用 openpyxl 作為後端引擎讀取 .xlsx 或 .xlsm 格式的 Excel 檔案。如果還沒有安裝 openpyxl，可以使用以下指令安裝：

pip install openpyxl

pandas 讀取 Excel 檔案的方式

pandas 透過 read_excel 函數將 Excel 檔案導入至 DataFrame 以便後續處理。

read_excel 的使用方式如下：

import pandas as pd
 
df = pd.read_excel('your_file.xlsx')

假設現在有檔案名稱為 example.xlsx 的 Excel 檔案需要讀取，則函式改寫如下：

import pandas as pd
 
# 讀取 Excel 檔案
df = pd.read_excel('example.xlsx')
 
# 顯示前五列數據
print(df.head())

透過 dtype 指定字串 (文字) 格式欄位

pandas 讀取 Excel 檔案時會自動判斷欄位的資料格式，有時候雖然特定欄位的儲存格都是數字，但希望 pandas 將該欄位當成字串處理，此時可以在讀取 Excel 檔案時，使用 dtype 參數來指定特定欄位的資料格式。

例如以下例子希望 pandas 將 order_id 欄位當成字串欄位：

import pandas as pd
 
# 讀取 Excel 檔案並指定 'order_id' 欄位為字串類型
df = pd.read_excel('example.xlsx', dtype={'order_id': str})
 
# 顯示數據類型
print(df.dtypes)

總結

這篇文章介紹如何使用 pandas 套件讀取 Excel 檔案，並分享如何指定欄位為字串類型。

使用 pandas 可以讀取和處理 Excel 檔案中的數據。
使用 dtype 參數可以指定某些欄位的數據類型。

本篇文章同步發布於 Python pandas 讀取 Excel 檔案【Python 處理 Excel #2】

因為不熟 VBA，只好用 Python 寫 Excel 【Python 處理 Excel #1】

Python pandas 選取與更變 DataFrame 欄位【Python 處理 Excel #3】

系列文

30 天學會用 Python pandas 和 openpyxl 處理 Excel —— 成為用 Python 處理 Excel 檔案的高手共 30 篇

RSS系列文訂閱系列文

12 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

30 天學會用 Python pandas 和 openpyxl 處理 Excel —— 成為用 Python 處理 Excel 檔案的高手系列 第 2 篇