iT邦幫忙

2024 iThome 鐵人賽

DAY 7
0
Python

30天Python資料分析挑戰:從基礎到視覺化系列 第 7

Day 07: 使用 Pandas 快速檢視資料集

  • 分享至 

  • xImage
  •  

Day 07: 使用 Pandas 快速檢視資料集

在資料分析的第一步,我們通常需要快速檢視資料集的內容,以便了解資料的基本結構和特徵。今天,我們將學習如何使用 Pandas 來查看資料的前幾筆和後幾筆數據,並運用 Iris 資料集來進行實作。

以下有任何問題,都可以私訊我的IG
點我私訊IG

1. 在同一個資料夾中建立一個 Google Colab 筆記本

首先,我們需要在昨天創建的 Iris 資料夾中,再新增一個 Google Colab 筆記本,並命名為 iris_check
https://ithelp.ithome.com.tw/upload/images/20240920/20140380bNf3wIK1xr.png

2. 載入 Iris 資料集

首先,我們需要載入 Iris 資料集,這個資料集包含 150 筆資料,每筆資料有 4 個特徵(花萼長度、花萼寬度、花瓣長度、花瓣寬度)以及 3 種類型的花卉。

from google.colab import drive
import pandas as pd

# 掛載 Google Drive
drive.mount('/content/drive/')

# 讀取 CSV 檔案
iris_df = pd.read_csv('/content/drive/MyDrive/iris/iris_dataset.csv')

3. 查看前 5 筆和10筆資料

我們可以使用 head() 函數來檢視資料集的前幾筆資料。預設情況下,它會顯示前 5 筆資料,但你也可以指定顯示的行數。

# 查看前 5 筆資料
print(iris_df.head())

# 查看前 10 筆資料
print(iris_df.head(10))

這段程式碼將顯示 Iris 資料集的前 5 筆或前 10 筆資料,我們可以看到每個特徵的數值以及它們對應的花卉類型。
https://ithelp.ithome.com.tw/upload/images/20240920/20140380TiDDE5kCH1.png

4. 查看後 5 筆和10筆資料

同樣地,我們可以使用 tail() 函數來查看資料集的最後幾筆資料,預設會顯示最後 5 筆資料。

# 查看後 5 筆資料
print(iris_df.tail())

# 查看後 10 筆資料
print(iris_df.tail(10))

這段程式碼會顯示資料集的最後幾筆資料,幫助我們檢查資料集末尾的數據情況。
https://ithelp.ithome.com.tw/upload/images/20240920/20140380JygMgEToy3.png

5. 隨機抽取幾筆資料

有時候,我們想要隨機查看一些資料點,而不是固定的前幾筆或後幾筆。我們可以使用 sample() 函數來隨機抽取資料。

# 隨機抽取 5 筆資料
print(iris_df.sample(5))

這樣,我們可以隨機抽取資料集中的幾筆資料進行檢查,特別適合用來查看資料集中是否有潛在的異常值或誤差。
https://ithelp.ithome.com.tw/upload/images/20240920/20140380yz0pdiNYpc.png

6. 查看資料集的基本資訊

Pandas 還提供了一些實用的函數,幫助我們快速了解資料的大小、結構和欄位名稱。例如,我們可以使用 info() 函數來查看資料集的基本結構和每個欄位的數據類型。

# 查看資料集的基本資訊
print(iris_df.info())

這段程式碼會顯示資料集的總行數、每個欄位的名稱、數據類型和缺失值的數量,讓我們對資料集的概況有一個全局的了解。
https://ithelp.ithome.com.tw/upload/images/20240920/20140380l1nsvH9OS1.png

7. 檢視每個欄位的基本統計資訊

我們還可以使用 describe() 函數來查看資料集的統計摘要,包括平均值、標準差、最大值、最小值等信息。

# 查看統計摘要
print(iris_df.describe())

這樣我們可以快速了解每個數值型特徵的分佈情況,有助於進一步的資料處理和分析。
https://ithelp.ithome.com.tw/upload/images/20240920/20140380ZP52kAJnQm.png

小結

今天我們學習了如何使用 Pandas 來快速檢視資料集的內容,包括查看資料集的前幾筆、後幾筆和隨機抽取的資料,這些技巧能幫助我們在資料分析的第一步迅速掌握資料的基本結構。這些工具能夠提高我們檢查資料的效率,為後續的資料清理和分析打下基礎。


上一篇
Day 06: Google Colab 如何讀取 CSV 檔案
下一篇
Day 08: 資料處理 - 處理資料中的缺失值 (NAN)
系列文
30天Python資料分析挑戰:從基礎到視覺化30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言