DAY[20]-Kaggle實戰-資料前處理與EDA

11th鐵人賽 python3 machine learning

Austin

團隊Bikini Bottom

2019-10-05 21:32:09

2413 瀏覽

分享至

匯入與觀察資料

from google.colab import drive
drive.mount('/content/gdrive')
train = pd.read_csv("/content/gdrive/My Drive/train.csv")
test = pd.read_csv("/content/gdrive/My Drive/test.csv")

記得先上傳至雲端硬碟才能執行底下的程式碼哦~

import pandas as pd
import numpy as np
import seaborn as sns

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
# 觀察資料
train.shape, test.shape
# ((1460, 81), (1459, 80))
train.head()

id是預測過程中完全用不到的資料，因此在處理過程中會先行去除。

train.drop(['Id'], axis=1, inplace=True)
test.drop(['Id'], axis=1, inplace=True)

我們可以針對預測目標進行視覺化，並且在這類的回歸型問題中，盡量將數據整理成常態分佈的型式，對於模型而言會較於均衡，並不會傾向於預測高或者低。

sns.distplot(train["SalePrice"])

sns.distplot(np.log1p(train["SalePrice"]))

記得指派回原始數據才有效哦！

train.loc[:,"SalePrice"] = np.log1p(train["SalePrice"])

DAY[19]-總整理與程式碼

DAY[21]-Kaggle實戰補值與特徵新增(1)

系列文

Python機器學習介紹與實戰共 30 篇

RSS系列文訂閱系列文

52 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

Python機器學習介紹與實戰系列 第 20 篇

DAY[20]-Kaggle實戰-資料前處理與EDA

匯入與觀察資料

尚未有邦友留言

標記使用者

Python機器學習介紹與實戰系列第 20 篇