Python零基礎到kaggle-Day12

11th鐵人賽

1763 瀏覽

今日目標

查看資料欄位相關性，並做出判斷

培養分析資料的能力

基礎分析部分:
測試資料集ID都沒重複
測試與訓練資料集也沒重疊
但我們有很多缺值，再進一步分析
Age,Cabin,Embarked有很多缺值，而這邊我們還發現一個漏網之魚，Fare在測試資料集有個缺值需填補

而在相關性分析部分:
df_train['Family'] = df_train['SibSp'] + df_train['Parch']
注意：這邊將旁系與直系血親合併並新增為家族方便觀察關係

1.大部分男生都死了，大部分女生活下來
2.階級跟存活率成正比
3.最低艙等女性存活率還是比最高艙等男性高
4.旁系血親1個存活率最高
5.直系血親3個存活率最高
6.如果加總，有3個親友存活率高
7.船艙存活率C>Q>S

我們也可以繪Feature Correlation的heatmap來做特徵選擇

再來看一下heatmap
正相關(白色):
1.家族跟獲救
2.票價跟階級
3.直系血親跟年齡
4.生存跟旁系
5.旁系跟家族

負相關(黑色):
1.票價跟獲救
2.家族跟階級
3.直系血親跟階級
4.票價跟年齡
5.旁系血親跟年齡
6.生存跟年齡
7.直系跟旁系血親
8.直系跟家族

資料觀察跟分析得差不多了，接下來可以開始填補缺值，一般來說我們不會更動原始資料表，一切都是複製訓練與測試資料集成為一個大表格後在記憶體內運算

系列文

Python零基礎到Kaggle 共 31 篇

95 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙