當然,也可以到之前反覆提到的檔案,這邊都有相關檔案,也有我們寫好的範例程式
回到Anaconda,點「Home」,選Jupyter Notebook的安裝「Install」,然後開啟「Launch」。
此步驟也可以在剛剛的cmd/Terminal中進行,需要在
Windows請輸入:activate tensorflow
Mac請輸入:source activate tensorflow
進入環境中,再輸入
jupyter notebook
此時會跳到這個畫面,請記住這個目錄,之後我們會下載一些程式,放在這目錄下方便查找
例如
載入各種套件:
如果有還沒安裝的套件,到cmd/Terminal:
通常是「pip insall 套件名稱」、「conda install 套件名稱」就可以;如果比較複雜的,可能就需要上網查一下
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor
請把檔案都下載後放到好找的位置
請選 Big_Data/titanic 的 titanic_simple.ipynb
讀取csv文件
df_train = pd.read_csv('./data/' + 'titanic_train.csv')
df_test = pd.read_csv('./data/' + 'titanic_test.csv')
列出幾條資料
print(df_train.shape)
df_train.head()
使用sns列出一些與倖存相關的欄位:
生存的比例大概是4成、死亡的比例是6成sns.countplot(df_train['Survived'])
女人生存率是男人的好幾倍sns.countplot(df_train['Sex'], hue=df_train['Survived'])
1等艙的生存率最高、再來是2等艙、最後是3等艙sns.countplot(df_train['Pclass'], hue=df_train['Survived'])
S港出發的都比較容易死亡(後續看是此港上船的買的是便宜的倉等)sns.countplot(df_train['Embarked'], hue=df_train['Survived'])
年齡小的存活比例高
g = sns.FacetGrid(df_train, col='Survived')
g.map(sns.distplot, 'Age', kde=False)
df_train['Family_Size'] = df_train['Parch'] + df_train['SibSp']
g = sns.FacetGrid(df_train, col='Survived')
g.map(sns.distplot, 'Family_Size', kde=False)