iT邦幫忙

2023 iThome 鐵人賽

DAY 6
0
自我挑戰組

Pandas|資料前處理工具 系列 第 6

Day 6|實戰讀取並觀察外部資料

  • 分享至 

  • xImage
  •  

  在進行數據分析前,需要先了解資料的內容,以利後續資料清理、特徵工程等處理,因此本篇將延續昨日主題,以實際案例實作一次讀取外部資料,並使用基本語法觀察資料內容!話不多說,Let’s Go~內容包含:

  1. 讀取外部資料:Kaggle - Udemy Courses(連結
  2. 觀察資料:head、tail、info、describe

■ 實戰|讀取外部資料

  資料的來源有很多種,可能是網路上政府公開資料,也可能是 Kaggle 上的資料集,以下將以 Kaggle 的 Udemy Courses 資料集做為範例和大家實戰一次!

1. 建立專案資料夾:【文章】2023鐵人賽
https://ithelp.ithome.com.tw/upload/images/20230921/20162238MtK2UXa6zw.png

2. 建立執行程式:load.py
(1) 開啟 VS Code 與專案資料夾
https://ithelp.ithome.com.tw/upload/images/20230921/201622385mGByzFomA.jpg
(2) 新增檔案並命名(⚠️ 寫Python,記得檔名後面要加「.py」)
https://ithelp.ithome.com.tw/upload/images/20230921/201622381CH4f7t8fh.jpg

3. 下載資料並存放於專案資料夾中

  • 「01.Course_info.csv」與執行程式放在同一級
  • 「02.Comments.csv」在執行程式下一級data資料夾中

https://ithelp.ithome.com.tw/upload/images/20230921/201622381OWsXJFNG3.jpg

https://ithelp.ithome.com.tw/upload/images/20230921/20162238PIVUkahiMO.jpg

4. 讀取檔案:於 load.py 檔中,撰寫程式碼並執行

(1) 讀取與執行檔位於相同路徑的「01.Course_info.csv」

import pandas as pd
df = pd.read_csv('01.Course_info.csv')
print(df)

輸出結果:有20個欄位,209734筆資料
https://ithelp.ithome.com.tw/upload/images/20230921/20162238FzK03wPoK5.png

(2) 讀取與執行檔位於不同路徑,在下一級路徑(data資料夾)中的「02.Comments.csv」

import pandas as pd
df = pd.read_csv('./data/02.Comments.csv')
print(df)

輸出結果:有6個欄位,9411727筆資料
https://ithelp.ithome.com.tw/upload/images/20230921/20162238uf0pnD5g0U.png

■ 方法|觀察資料

  程式碼最後撰寫 print(df) 會將全部的資料印出,但有時僅需部分內容,此時使用下列幾種語法:

  1. info():檢視檔案資訊
print(df.info())

輸出結果:
https://ithelp.ithome.com.tw/upload/images/20230921/20162238MO3ISQIv6K.png

  1. head():取得前幾筆資料,預設為 5,也可自行在括號中加入需要的數字
print(df.head())

輸出結果:
https://ithelp.ithome.com.tw/upload/images/20230921/20162238akUYydNGGm.png

  1. tail():取得最後幾筆資料,預設為 5,也可自行在括號中加入需要的數字
print(df.tail())

輸出結果:
https://ithelp.ithome.com.tw/upload/images/20230921/20162238QGZ1Wi1kPP.png

  1. describe():檢視數值欄位統計摘要
print(df.describe())

輸出結果:
https://ithelp.ithome.com.tw/upload/images/20230921/20162238FjC6JqLfAH.png

■ 結語

想要學習使用Pandas讀取外部資料的邦友們,可以按照內文實作看看喔!
如果有任何不理解、錯誤或建議的話,歡迎留言給我!喜歡的話,也歡迎按讚訂閱!
我是 Eva,一位正在努力跨進資料科學領域的女子!我們下一篇文章見!Bye Bye~
【本篇文章將同步更新於個人的 Medium,期待與您的相遇!】


上一篇
Day 5|檔案路徑與存取外部資料
下一篇
Day 7|新增 Series 或 DataFrame
系列文
Pandas|資料前處理工具 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言