iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0
AI & Data

30天輕鬆搞定資料分析系列 第 26

DAY-26 資料分析實戰Step2:處理資料

  • 分享至 

  • xImage
  •  

有了資料後就要來處理!跟之前學的一樣先來偵測一下他有沒有缺失值:

print(data.info())

這次用的是.info()方法,Pandas的DataFrame提供這個方法,可以顯示每個欄位的非空值數量,能更快速查看哪些欄位存在缺失值。顯示結果如下:
https://ithelp.ithome.com.tw/upload/images/20231010/20161705c9MEkBA06Z.png
接下來,可以處理可能的異常值,以免它們影響後續的分析結果,舉例幾個處理異常值的方法:

  1. 盒鬚圖(Box Plot):
    使用盒鬚圖可以可視化資料的分布,容易發現是否有在數據分布之外的點,這些點可能是異常值。
  2. Z分數或標準分數法:
    計算每個數據點與平均值的距離,以標準差為單位。超出一定標準差的數據點被視為異常值。
  3. IQR方法(四分位距離法):
    計算數據的四分位距(IQR),然後使用 IQR 的倍數來識別異常值。

資料整理完畢來進行數據轉換,才會更適合我接下來的分析需求,確保資料的格式一致,方便後續的操作。將類別型資料轉換為數值型有不同的方法,如果類別型資料是文字型(object),可以用這個方法讓他轉成我們想要的類型。舉例來說,我把平均年齡改成float:

data = data[data['average_age'] != '平均年齡']
data['average_age'] = data['average_age'].astype(float)

把縣市改成category:

data['site_id'] = data['site_id'].astype('category')

處理完資料,可以開始進入分析!


上一篇
DAY-25 資料分析實戰Step1:選擇一個小的資料集
下一篇
DAY-27 資料分析實戰Step3:製圖
系列文
30天輕鬆搞定資料分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言