有了資料後就要來處理!跟之前學的一樣先來偵測一下他有沒有缺失值:
print(data.info())
這次用的是.info()方法,Pandas的DataFrame提供這個方法,可以顯示每個欄位的非空值數量,能更快速查看哪些欄位存在缺失值。顯示結果如下:
接下來,可以處理可能的異常值,以免它們影響後續的分析結果,舉例幾個處理異常值的方法:
資料整理完畢來進行數據轉換,才會更適合我接下來的分析需求,確保資料的格式一致,方便後續的操作。將類別型資料轉換為數值型有不同的方法,如果類別型資料是文字型(object),可以用這個方法讓他轉成我們想要的類型。舉例來說,我把平均年齡改成float:
data = data[data['average_age'] != '平均年齡']
data['average_age'] = data['average_age'].astype(float)
把縣市改成category:
data['site_id'] = data['site_id'].astype('category')
處理完資料,可以開始進入分析!