2024 iThome 鐵人賽

DAY 7

Python

30天Python資料分析挑戰：從基礎到視覺化系列第 7 篇

Day 07: 使用 Pandas 快速檢視資料集

16th鐵人賽

grownbit4U

2024-09-21 21:28:52

569 瀏覽

分享至

Day 07: 使用 Pandas 快速檢視資料集

在資料分析的第一步，我們通常需要快速檢視資料集的內容，以便了解資料的基本結構和特徵。今天，我們將學習如何使用 Pandas 來查看資料的前幾筆和後幾筆數據，並運用 Iris 資料集來進行實作。

以下有任何問題，都可以私訊我的IG
點我私訊IG

1. 在同一個資料夾中建立一個 Google Colab 筆記本

首先，我們需要在昨天創建的 Iris 資料夾中，再新增一個 Google Colab 筆記本，並命名為 iris_check。

2. 載入 Iris 資料集

首先，我們需要載入 Iris 資料集，這個資料集包含 150 筆資料，每筆資料有 4 個特徵（花萼長度、花萼寬度、花瓣長度、花瓣寬度）以及 3 種類型的花卉。

from google.colab import drive
import pandas as pd

# 掛載 Google Drive
drive.mount('/content/drive/')

# 讀取 CSV 檔案
iris_df = pd.read_csv('/content/drive/MyDrive/iris/iris_dataset.csv')

3. 查看前 5 筆和10筆資料

我們可以使用 head() 函數來檢視資料集的前幾筆資料。預設情況下，它會顯示前 5 筆資料，但你也可以指定顯示的行數。

# 查看前 5 筆資料
print(iris_df.head())

# 查看前 10 筆資料
print(iris_df.head(10))

這段程式碼將顯示 Iris 資料集的前 5 筆或前 10 筆資料，我們可以看到每個特徵的數值以及它們對應的花卉類型。

4. 查看後 5 筆和10筆資料

同樣地，我們可以使用 tail() 函數來查看資料集的最後幾筆資料，預設會顯示最後 5 筆資料。

# 查看後 5 筆資料
print(iris_df.tail())

# 查看後 10 筆資料
print(iris_df.tail(10))

這段程式碼會顯示資料集的最後幾筆資料，幫助我們檢查資料集末尾的數據情況。

5. 隨機抽取幾筆資料

有時候，我們想要隨機查看一些資料點，而不是固定的前幾筆或後幾筆。我們可以使用 sample() 函數來隨機抽取資料。

# 隨機抽取 5 筆資料
print(iris_df.sample(5))

這樣，我們可以隨機抽取資料集中的幾筆資料進行檢查，特別適合用來查看資料集中是否有潛在的異常值或誤差。

6. 查看資料集的基本資訊

Pandas 還提供了一些實用的函數，幫助我們快速了解資料的大小、結構和欄位名稱。例如，我們可以使用 info() 函數來查看資料集的基本結構和每個欄位的數據類型。

# 查看資料集的基本資訊
print(iris_df.info())

這段程式碼會顯示資料集的總行數、每個欄位的名稱、數據類型和缺失值的數量，讓我們對資料集的概況有一個全局的了解。

7. 檢視每個欄位的基本統計資訊

我們還可以使用 describe() 函數來查看資料集的統計摘要，包括平均值、標準差、最大值、最小值等信息。

# 查看統計摘要
print(iris_df.describe())

這樣我們可以快速了解每個數值型特徵的分佈情況，有助於進一步的資料處理和分析。

小結

今天我們學習了如何使用 Pandas 來快速檢視資料集的內容，包括查看資料集的前幾筆、後幾筆和隨機抽取的資料，這些技巧能幫助我們在資料分析的第一步迅速掌握資料的基本結構。這些工具能夠提高我們檢查資料的效率，為後續的資料清理和分析打下基礎。

Day 06: Google Colab 如何讀取 CSV 檔案

Day 08: 資料處理 - 處理資料中的缺失值 (NAN)

系列文

30天Python資料分析挑戰：從基礎到視覺化共 30 篇

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙

30天Python資料分析挑戰：從基礎到視覺化系列 第 7 篇