iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 25
0
AI & Data

AI+Line系列 第 25

Day25 大數據(4):觀察數據

當然,也可以到之前反覆提到的檔案,這邊都有相關檔案,也有我們寫好的範例程式
回到Anaconda,點「Home」,選Jupyter Notebook的安裝「Install」,然後開啟「Launch」。
此步驟也可以在剛剛的cmd/Terminal中進行,需要在
Windows請輸入:activate tensorflow
Mac請輸入:source activate tensorflow
進入環境中,再輸入
jupyter notebook
https://imgur.com/23xnZda.png

此時會跳到這個畫面,請記住這個目錄,之後我們會下載一些程式,放在這目錄下方便查找
例如
https://imgur.com/6HpxD6j.png

載入各種套件:
如果有還沒安裝的套件,到cmd/Terminal:
通常是「pip insall 套件名稱」、「conda install 套件名稱」就可以;如果比較複雜的,可能就需要上網查一下
https://imgur.com/WC74dlX.png

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor

請把檔案都下載後放到好找的位置
請選 Big_Data/titanic 的 titanic_simple.ipynb
https://imgur.com/95Gtfq6.png

讀取csv文件

df_train = pd.read_csv('./data/' + 'titanic_train.csv')
df_test = pd.read_csv('./data/' + 'titanic_test.csv')

列出幾條資料

print(df_train.shape)
df_train.head()

https://imgur.com/ICsswv0.png

使用sns列出一些與倖存相關的欄位:

  1. 生存的比例大概是4成、死亡的比例是6成
    sns.countplot(df_train['Survived'])

  2. 女人生存率是男人的好幾倍
    sns.countplot(df_train['Sex'], hue=df_train['Survived'])

  3. 1等艙的生存率最高、再來是2等艙、最後是3等艙
    sns.countplot(df_train['Pclass'], hue=df_train['Survived'])

  4. S港出發的都比較容易死亡(後續看是此港上船的買的是便宜的倉等)
    sns.countplot(df_train['Embarked'], hue=df_train['Survived'])
    https://imgur.com/mb63Nzp.png

  5. 年齡小的存活比例高

g = sns.FacetGrid(df_train, col='Survived')
g.map(sns.distplot, 'Age', kde=False)
  1. 有家人一起上船的,存活率比沒有的高(把「父母+小孩」加上「兄弟姊妹+丈夫妻子」的數量變成一個新的欄位叫做家庭大小)
df_train['Family_Size'] = df_train['Parch'] + df_train['SibSp']
g = sns.FacetGrid(df_train, col='Survived')
g.map(sns.distplot, 'Family_Size', kde=False)

https://imgur.com/AgtA6zY.png


上一篇
Day24 大數據(3):收集數據(Kaggle平台)
下一篇
Day26 大數據(5):最簡流程
系列文
AI+Line30

尚未有邦友留言

立即登入留言