iT邦幫忙

2024 iThome 鐵人賽

DAY 14
0
AI/ ML & Data

學習人工智慧的概念和技術系列 第 15

學習 Pandas 庫:進行資料分析和處理

  • 分享至 

  • xImage
  •  

斷簽我先哭

    1. Pandas 是什麼?
      Pandas 是基於 Numpy 構建的資料處理庫,讓我們能夠處理大量的數據。它的核心數據結構是 DataFrame 和 Series,這些結構讓我們能夠像操作 Excel 表格或資料庫表格一樣輕鬆地處理數據。

Series:它是一個一維的數據結構,類似於 Python 的列表或 Numpy 的一維陣列,但它有索引,這讓我們可以更方便地標記和操作數據。
DataFrame:它是 Pandas 中最重要的數據結構,是一個二維的表格,類似於 Excel 表格或 SQL 表。每一列都可以看作一個 Series,也就是說 DataFrame 是多個 Series 的組合。
2. 讀取和輸出數據
Pandas 支援多種格式的數據讀取,比如 CSV、Excel、JSON 等。我發現 Pandas 的讀取功能非常方便,特別是 read_csv() 函數,可以用來讀取 CSV 格式的數據,只需一行代碼即可將數據載入
像是:
import pandas as pd

data = pd.read_csv('data.csv')
print(data.head()) # 查看數據的前五行

這讓我在處理各類型的數據時變得非常輕鬆,無論是來自網路下載的資料,還是內部產生的數據,只要是常見的文件格式,Pandas 幾乎都能讀取。

同樣地,Pandas 也可以將處理完的數據輸出為 CSV、Excel 等格式,這對於數據共享和儲存非常有用。

  1. 數據操作與清理
    在學習 Pandas 時,我特別注重的是如何進行數據操作和清理。實際上,數據科學的一個很大部分工作是處理髒數據,包括缺失值、重複值、不一致的格式等。而 Pandas 提供了一整套強大的工具來幫助我們快速清理數據:

處理缺失值:Pandas 可以輕鬆識別數據中的缺失值並進行處理,常見的方式包括刪除缺失值的行或列,或者用統計值(比如平均值、中位數等)來填補:

data.dropna() # 刪除含有缺失值的行
data.fillna(0) # 用 0 填補缺失值


上一篇
總結這周的學習
下一篇
學習如何應用K-means進行非監督學習
系列文
學習人工智慧的概念和技術30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言