Day27 大數據(6)：最簡流程說明

第 11 屆 iThome 鐵人賽

DAY 27

AI & Data

AI+Line系列第 27 篇

11th鐵人賽

ianfan0704

團隊HSCA x CHATBOT x SERVERLESS

2019-10-12 19:11:06

2190 瀏覽

分享至

讀取csv

df_train = pd.read_csv('./data/' + 'titanic_train.csv')
df_test = pd.read_csv('./data/' + 'titanic_test.csv')

取出目標欄位

Y_train = df_train['Survived']

df_train = df_train.drop(['Survived'] , axis=1) # 移除欄位

取出非特徵欄位

ids = df_test['PassengerId']

df_train = df_train.drop(['PassengerId'] , axis=1) # 移除欄位
df_test = df_test.drop(['PassengerId'] , axis=1) # 移除欄位

合併df_train、df_test

df = pd.concat([df_train,df_test])
df.head()

填補缺失值
編碼
歸一化

LEncoder = LabelEncoder()
MMEncoder = MinMaxScaler()
for c in df.columns:
    df[c] = df[c].fillna(-1) # 填補缺失值
    if df[c].dtype == 'object':
        print(c)
        df[c] = LEncoder.fit_transform(list(df[c].values)) # 編碼
    df[c] = MMEncoder.fit_transform(df[c].values.reshape(-1, 1)) # 歸一化
df.head()

取得X_train、y_train

train_num = Y_train.shape[0]
X_train = df[:train_num]
X_test = df[train_num:]

訓練模型

model = GradientBoostingClassifier()
model.fit(X_train, Y_train)

列出特徵重要性

importance = pd.Series(data=model.feature_importances_, index=X_train.columns)
importance = importance.sort_values(ascending=False)
print(importance)

預測X_test

pred = model.predict(X_test)
sub = pd.DataFrame({'PassengerId': ids, 'Survived': pred})
sub.head()

儲存預測數據到csv檔

sub.to_csv('titanic_baseline.csv', index=False)

Day26 大數據(5)：最簡流程

Day28 大數據(7)：站在巨人的肩膀上學習

系列文

AI+Line 共 30 篇

RSS系列文訂閱系列文

30 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙

AI+Line系列 第 27 篇

Day27 大數據(6)：最簡流程說明

尚未有邦友留言

標記使用者

AI+Line系列第 27 篇