往往我們在拿到一份資料時,數據都是很大很恐怖的
而且我們並無足夠的時間將每個數值好好得看過一遍
pandas提供了許多方法穰我們能有效率的做資料探勘
我會使用Kaggle Titanic的資料來做操作示範
先不要在意各這資料集裡各欄位代表什麼意思
我只是要示範檢視資料的方法
先讀取資料
DataFrame.head方法
顯示前五筆資料,可在後方括號填入數字,來改變想顯示的資料個數,預設是5
data.head()
DataFrame.info方法
可獲得各欄位名稱、有無空值、各欄位資料型態的資訊
DataFrame.describe方法
count資料個數、mean、std、min、max、第一四分位數、第二四分位數(也就是中位數)、第三四分位數
DataFrame.value_counts方法
計算各值的數量 我選擇此資料集的Sex欄位做示範
值為male的個數為577、值為female的個數為314
表示男生577人 女生314人
unique方法
輸出欄位不重複值
表示Pclass此欄位只有三種值 1、2、3
送上colab連結,可自行在上面多做點練習更加熟悉pandas
https://colab.research.google.com/drive/1aDfwgh0P6tC07uy3usfzsFzUv2f4wZsy?usp=sharing
Titanic資料下載
https://www.kaggle.com/c/titanic/overview