iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 12
0
AI & Data

Python零基礎到Kaggle 系列 第 12

Python零基礎到kaggle-Day11

  • 分享至 

  • xImage
  •  

今日目標

昨天知道資料有無缺值跟重複的大致長相,今天回顧一下昨天的基礎分析,跟了解一下欄位間相關性

看完文章您將學到什麼

近一步探究資料間相關性

內文

缺值與重複值檢查

df_train.PassengerId.nunique() == df_train.shape[0]: 查看Id是否有重複
np.intersect1d: 查看訓練與測試集ID是否有重複
df_train.count().min() == df_train.shape[0] and df_testset.count().min() == df_testset.shape[0]: 由欄位個數比對是否有缺值
沒有的話印出We do not need to worry about missing values.
否則印出訓練與測試集哪些欄位有多少缺值

欄位相關性檢查

接下來我們針對欄位間做相關性比較,過程中我們會一直用到幾個關鍵詞
資料欄位.groupby(依某欄位做group, as_index=True/False).mean().sort_values(by=某欄位, ascending=True/False))
as_index的作用是控制聚合輸出是否以組標簽為索引值,False顯示索引項,此時可以通過df.loc[0]取得值,True則相反
ascending參數的默認值是True,按照升序排序,當傳入False時,按照降序進行排列
FeatureCorreate: 這個方法會繪製兩兩參數間相關係數圖,顏色越淺正相關性越大,越深是負相關性越大

反思回顧

Kaggle中缺值填補與文字欄位轉換是一大重點,這邊要多累積經驗與正確判斷力,一開始分析錯誤導致上傳結果不理想也是常有的

參考資料

https://www.cnblogs.com/Allen-rg/p/10546642.html
https://zhuanlan.zhihu.com/p/35013079


上一篇
Python零基礎到kaggle-Day10
下一篇
Python零基礎到kaggle-Day12
系列文
Python零基礎到Kaggle 31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言