iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 11
0
AI & Data

Python零基礎到Kaggle 系列 第 11

Python零基礎到kaggle-Day10

  • 分享至 

  • xImage
  •  

今日目標

查看資料模樣,並觀察以下三點:

  • 非數值欄位
  • 缺值
  • 欄位是否有重複

看完文章您將學到什麼

知道如何查看資料跟做基本分析

程式撰寫

https://ithelp.ithome.com.tw/upload/images/20190912/20114906wkK2ICa9CV.png
https://ithelp.ithome.com.tw/upload/images/20190912/20114906wJYgRuhk8Y.png
https://ithelp.ithome.com.tw/upload/images/20190912/2011490670HTbdBP72.png
https://ithelp.ithome.com.tw/upload/images/20190912/2011490608R0ExhXVq.png
https://ithelp.ithome.com.tw/upload/images/20190912/20114906G070lQJ74e.png
https://ithelp.ithome.com.tw/upload/images/20190912/201149060iAOjBtCrS.png
https://ithelp.ithome.com.tw/upload/images/20190912/20114906PgEe5v9QFa.png

可以發現訓練集有12種資料
float64(2), int64(5), object(5)
測試集有11種資料
float64(2), int64(4), object(5)
少一欄數值欄位,比對了一下知道是待預測的生存欄位
在訓練集資料完整有891筆,測試集資料有418筆
而Age,Cabin跟Embarked有缺值

有用:

survival:是否存活[0,1],預測目標
pclass:船票等級[1,2,3]
sex:性別
age:年齡
sibsp:平輩數目sibling兄弟,spouses夫妻

#Spouse =husband, wife (mistresses情婦 and fiancés未婚夫 were ignored)
parch:長晚輩數目parent,children
ticket:船票編號
fare:票價
cabin:船艙號碼
embarked:登陸港口[c,q,s]

用處不大:

passengerId:乘客Id,都是unique
name:姓名

欄位裡非數值的有

Name, Sex, Ticket, Cabin, Embarked
Name之外的可以考慮one-hot轉數值方便分析

反思回顧

今天理解資料大致長相,明天來做進一步分析

參考資料

https://www.kaggle.com/anaskad/step-by-step-solving-titanic-problem https://chtseng.wordpress.com/2017/12/24/kaggle-titanic%E5%80%96%E5%AD%98%E9%A0%90%E6%B8%AC-1/
https://zhuanlan.zhihu.com/p/27550334


上一篇
Python零基礎到kaggle-Day9
下一篇
Python零基礎到kaggle-Day11
系列文
Python零基礎到Kaggle 31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言