iT邦幫忙

2024 iThome 鐵人賽

DAY 28
1
Python

從0開始學習Python-為未來學習AI奠定基礎系列 第 28

從0開始學習Python---Pandas 應用之電影數據分析

  • 分享至 

  • xImage
  •  

Pandas 小專題:電影數據分析

目標:

  1. 讀取 CSV 檔案並創建 DataFrame
  2. 進行數據檢查和整理
  3. 統計數據資料(平均、最大值、分組聚合)
  4. 使用篩選、排序和分組進行深入分析
  5. 視覺化數據

程式碼總覽

https://ithelp.ithome.com.tw/upload/images/20240928/20168994pxkMJC1I6Z.png


1. 讀取 CSV 資料

先讀取電影數據集,包含多個欄位,如名稱、類型、評分和票房收入等。

https://ithelp.ithome.com.tw/upload/images/20240928/20168994jdmKfMJraL.png

  • pd.read_csv():這是 Pandas 中最常用來讀取 CSV 檔案的方法,它會將 CSV 檔案轉換為 DataFrame 結構,方便進行後續操作。
  • df.head():顯示 DataFrame 的前5行,可以快速查看數據的基本格式和內容。

2. 檢查數據

在進行分析前通常需要檢查數據的完整性,這裡主要是查看是否存在缺失值。

https://ithelp.ithome.com.tw/upload/images/20240928/201689948TPSclTZGP.png

  • df.info():顯示數據的基本信息,包括每個欄位的型別、是否存在缺失值等。

缺失值(Missing Values) 是指在數據集中某些欄位的值缺失或無法獲取的情況。這些缺失的數據可能是因為記錄不完整、資料收集過程中的錯誤或其他原因導致。
在 Pandas 的 DataFrame 中,缺失值通常會顯示為 NaN(Not a Number),表示該位置沒有有效數據。


3. 基本數據分析

這裡對數據進行一些基本的統計分析。

https://ithelp.ithome.com.tw/upload/images/20240928/20168994gWaIOwY0qn.png

  • mean()max():分別用來計算某列的平均值和最大值,例如評分和票房。

4. 數據分組

Pandas 的分組功能很好用~這裡我們將電影按類型分組,並計算每個類型的平均評分。

https://ithelp.ithome.com.tw/upload/images/20240928/20168994AzqD73Z2Du.png

  • groupby():用來按照某個欄位進行分組,這裡我們按電影的 genre(類型)分組。
  • mean():對每個分組的 rating 計算平均值。

5. 視覺化數據

最後,使用 Matplotlib 繪製圖表來視覺化數據。

https://ithelp.ithome.com.tw/upload/images/20240928/20168994XicCbGDAbw.png

  • plot():將 Pandas 與 Matplotlib 結合,用來繪製圖表。這裡我們繪製了平均評分的長條圖,分別展示電影類型與平均評分的關係和票房的分佈。
  • plt.show():顯示圖表。

輸出結果與分析

  • 平均評分的長條圖

https://ithelp.ithome.com.tw/upload/images/20240928/20168994gCnyMqt4ZQ.png

  • 其他輸出資料

https://ithelp.ithome.com.tw/upload/images/20240928/20168994M6qTnzZxIy.png


結語

寫完這個 Pandas 的小專題後,我開始理解為什麼 Pandas 常被用在處理 AI 的數據上。從讀取 CSV 到篩選數據,這一系列操作都非常直觀易懂。同時我也意識到數據本身的品質真的很重要,像缺失值這些細節如果忽略了,會影響分析結果。

另外,分組和聚合的部分給了我很大的啟發,當我看到不同類型電影的平均評分時,突然覺得有很多數據都可以這樣分析,不僅限於電影。以後如果能進一步學習更多數據處理技巧,我應該能更有條理的挖掘出更有價值的資訊。

最後,還是用我很熟悉的圖表繪製來讓資料視覺化~這部分是我感覺最有成就感的。當數據變成圖表時,所有的趨勢都一目了然,這種直觀的感受幫助我更容易理解數據,比單看數字有意思多了><


上一篇
從0開始學習Python---Pandas 模組與 AI
下一篇
從0開始學習Python---KNN 演算法 (一)人工智慧破冰之旅
系列文
從0開始學習Python-為未來學習AI奠定基礎30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言