那我使用的資料網站是這個(世界人口的數據集):
https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset
那先介紹一下kaggle是一個存放許多公開數據集的平台,裡面都有大量的數據集提供給資料相關的工程師,你也可以在上面下載數據集拿回去自己練習,你會越做越有心得。
將套件匯入並且資料匯入進來顯示出資料的內容
透過這個指令可以查看各個欄位的資料型態
查看各個欄位有沒有缺失值,很慶幸的並沒有
那基本上說如果資料乾淨程度是這樣的話,基本上是不用在做什麼額外步驟,除非說上述資料裡面有出現NaN的情況下,就要去做欄位與列之間的刪除。
那如果說我自己新增一份資料然後故意有空值出現,那我就可以找到哪個行的資料有問題了。
我故意將幾筆資料填入nan然後去使用到isnull()與sum(),這樣子可以根據這個回傳值,找到各個欄位有幾個NaN,然後去處理掉。
那因為我想要demo說刪除一列與一行的用法,所以我先將資料copy到另一個變數裡面,然後這個deep = True,是在說如果我更改了資料,也不會改變原始的檔案。
那我想要刪除1970年的人口所以使用了drop()這個函數,然後填入欄位名稱,並且axis的話0是刪除行、1是刪除列。這個要注意一下,如果說沒有找到該欄位的名稱是會出問題的喔!!
那今天的內容講到這邊,謝謝觀看!!