iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0
AI & Data

30天輕鬆搞定資料分析系列 第 10

DAY-10 資料處理(1):使用Pandas資料庫

  • 分享至 

  • xImage
  •  

今天的內容來到資料處理啦!介紹的是用Pandas來練習,這裡參考的是Quick Introduction to pandas,裡面詳細介紹了在Colab中可以進行的各種實作。

Pandas是一個在python中廣泛使用的數據分析式函式庫,提供強大數據結構和工具,處理和分析結構化數據。其中主要引入的兩種數據結構:

  • Series:一維數據結構,類似一列,每個元素有對應標籤 -> 索引。
  • DataFrame:二維數據結構,類似一個表格,有多個行跟列,每列可以有不同數據類型。
    DataFrame中包含一個或多個Series,每個都有對應的名稱。

實作Step1:

<引用Pandas>

import pandas as pd
pd.__version__

實作Step2:

再來認識一下Series的運作:

pd.Series(['San Francisco', 'San Jose', 'Sacramento'])

這裡的意思是Series內有一個陣列,放三個城市,就是一個完整的Series了。

實作Step3:

現在要來把Series放進DataFrame:

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])
pd.DataFrame({ 'City name': city_names, 'Population': population })

就會形成表單:
https://ithelp.ithome.com.tw/upload/images/20230920/201617059D0rzVCgws.png

實作step4:

知道原理後可以來輸入外部資料,因為數據很多幾千幾萬筆,手動輸入有點笨,提供範例:

california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()

執行後會看到:
https://ithelp.ithome.com.tw/upload/images/20230920/20161705P6LaYDhK47.png

今天大概介紹了Pandas資料庫,會發現真的很方便且實用,他也很適合清裡、轉換等工作,明天會繼續說明!


上一篇
DAY-9 從python開始(3):函數
下一篇
DAY-11 資料處理(2):處理缺失值、重複值
系列文
30天輕鬆搞定資料分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言