iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0

本篇文章同步發布於 Python pandas 讀取 Excel 檔案【Python 處理 Excel #2】

前言

想用 Python 處理 Excel 檔案的第一個步驟是用 Python 讀取 Excel 檔案中的資料。這篇文章介紹如何使用 Python 的 pandas 套件讀取 Excel 檔案。


pandas 套件介紹

pandas 是 Python 的一個數據處理和分析的工具,特別適用於處理結構化數據,能夠進行數據導入導出、清理、轉換、分析等操作。它有兩大數據結構:Series 和 DataFrame。Series 類似一維數據陣列,而 DataFrame 是類似 Excel 表格的二維的資料結構,也是之後文章中的主角。

如果還沒有安裝 pandas,可以使用以下指令安裝:

pip install pandas

openpyxl 套件介紹

openpyxl 是一個用於讀取和寫入 Excel 檔案的 Python 套件。它提供對 Excel 檔案進行格式化、插入圖表、群組欄位等操作。這使得 openpyxl 特別適合需要細緻控制 Excel 檔案的任務,例如自動化生成 Excel 檔案。

pandas 能使用 openpyxl 作為後端引擎讀取 .xlsx 或 .xlsm 格式的 Excel 檔案。如果還沒有安裝 openpyxl,可以使用以下指令安裝:

pip install openpyxl

pandas 讀取 Excel 檔案的方式

pandas 透過 read_excel 函數將 Excel 檔案導入至 DataFrame 以便後續處理。

read_excel 的使用方式如下:

import pandas as pd
 
df = pd.read_excel('your_file.xlsx')

假設現在有檔案名稱為 example.xlsx 的 Excel 檔案需要讀取,則函式改寫如下:

import pandas as pd
 
# 讀取 Excel 檔案
df = pd.read_excel('example.xlsx')
 
# 顯示前五列數據
print(df.head())

透過 dtype 指定字串 (文字) 格式欄位

pandas 讀取 Excel 檔案時會自動判斷欄位的資料格式,有時候雖然特定欄位的儲存格都是數字,但希望 pandas 將該欄位當成字串處理,此時可以在讀取 Excel 檔案時,使用 dtype 參數來指定特定欄位的資料格式。

例如以下例子希望 pandas 將 order_id 欄位當成字串欄位:

import pandas as pd
 
# 讀取 Excel 檔案並指定 'order_id' 欄位為字串類型
df = pd.read_excel('example.xlsx', dtype={'order_id': str})
 
# 顯示數據類型
print(df.dtypes)

總結

這篇文章介紹如何使用 pandas 套件讀取 Excel 檔案,並分享如何指定欄位為字串類型。

  • 使用 pandas 可以讀取和處理 Excel 檔案中的數據。
  • 使用 dtype 參數可以指定某些欄位的數據類型。

本篇文章同步發布於 Python pandas 讀取 Excel 檔案【Python 處理 Excel #2】


上一篇
因為不熟 VBA,只好用 Python 寫 Excel 【Python 處理 Excel #1】
下一篇
Python pandas 選取與更變 DataFrame 欄位【Python 處理 Excel #3】
系列文
30 天學會用 Python pandas 和 openpyxl 處理 Excel —— 成為用 Python 處理 Excel 檔案的高手30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言