查看資料模樣,並觀察以下三點:
知道如何查看資料跟做基本分析
可以發現訓練集有12種資料
float64(2), int64(5), object(5)
測試集有11種資料
float64(2), int64(4), object(5)
少一欄數值欄位,比對了一下知道是待預測的生存欄位
在訓練集資料完整有891筆,測試集資料有418筆
而Age,Cabin跟Embarked有缺值
survival:是否存活[0,1],預測目標
pclass:船票等級[1,2,3]
sex:性別
age:年齡
sibsp:平輩數目sibling兄弟,spouses夫妻
#Spouse =husband, wife (mistresses情婦 and fiancés未婚夫 were ignored)
parch:長晚輩數目parent,children
ticket:船票編號
fare:票價
cabin:船艙號碼
embarked:登陸港口[c,q,s]
passengerId:乘客Id,都是unique
name:姓名
Name, Sex, Ticket, Cabin, Embarked
Name之外的可以考慮one-hot轉數值方便分析
今天理解資料大致長相,明天來做進一步分析
https://www.kaggle.com/anaskad/step-by-step-solving-titanic-problem https://chtseng.wordpress.com/2017/12/24/kaggle-titanic%E5%80%96%E5%AD%98%E9%A0%90%E6%B8%AC-1/
https://zhuanlan.zhihu.com/p/27550334