iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 10
0
AI & Data

Python零基礎到Kaggle 系列 第 10

Python零基礎到kaggle-Day9

今日目標

觀察資料模樣,為之後資料分析做準備

看完文章您將學到什麼

理解資料分析概念,什麼是EDA

內文

資料分析一定會談到探索性分析Exploratory Data Analysis,簡稱EDA,透過敘述性統計、統計繪圖、視覺化等快速簡易的方式,從各種面向先了解資料的狀況,以利後續分析

DatasetsInfo: 利用.info()查看訓練與測試集資訊
.describe(): 顯示數值欄位各項統計數值(count,mean,std...)
describe(include=['O']): 顯示文字欄位各項統計數值,O代表object查看非數值資料
DatasetMissingPercentage: 以百分比顯示各欄位有多少缺值,用isnull()看資料缺值個數
DatasetUniquePercentage: 以百分比顯示各欄位有多少重複值,用unique()看資料是否重複

反思回顧

EDA在資料分析常會用到,可以寫成DatasetsInfo,DatasetMissingPercentage,DatasetUniquePercentage函式,下次丟資料進去就有結果了

參考資料

https://medium.com/@baubibi/速記ai課程-統計與資料分析-四-3cf14683b98f


上一篇
Python零基礎到kaggle-Day8
下一篇
Python零基礎到kaggle-Day10
系列文
Python零基礎到Kaggle 31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言