iT邦幫忙

2022 iThome 鐵人賽

DAY 25
0
自我挑戰組

我的Python小筆記系列 第 25

【Day25-資料處理實作】

  • 分享至 

  • xImage
  •  

那我使用的資料網站是這個(世界人口的數據集):
https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset

那先介紹一下kaggle是一個存放許多公開數據集的平台,裡面都有大量的數據集提供給資料相關的工程師,你也可以在上面下載數據集拿回去自己練習,你會越做越有心得。

將套件匯入並且資料匯入進來顯示出資料的內容

透過這個指令可以查看各個欄位的資料型態

查看各個欄位有沒有缺失值,很慶幸的並沒有

那基本上說如果資料乾淨程度是這樣的話,基本上是不用在做什麼額外步驟,除非說上述資料裡面有出現NaN的情況下,就要去做欄位與列之間的刪除。

那如果說我自己新增一份資料然後故意有空值出現,那我就可以找到哪個行的資料有問題了。


我故意將幾筆資料填入nan然後去使用到isnull()與sum(),這樣子可以根據這個回傳值,找到各個欄位有幾個NaN,然後去處理掉。


那因為我想要demo說刪除一列與一行的用法,所以我先將資料copy到另一個變數裡面,然後這個deep = True,是在說如果我更改了資料,也不會改變原始的檔案。

那我想要刪除1970年的人口所以使用了drop()這個函數,然後填入欄位名稱,並且axis的話0是刪除行、1是刪除列。這個要注意一下,如果說沒有找到該欄位的名稱是會出問題的喔!!

那今天的內容講到這邊,謝謝觀看!!


上一篇
【Day24-Jupyter Notebook】
下一篇
【Day26-KNN鄰近演算法】
系列文
我的Python小筆記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言