iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 20
0
AI & Data

Python機器學習介紹與實戰系列 第 20

DAY[20]-Kaggle實戰-資料前處理與EDA

  • 分享至 

  • twitterImage
  •  

匯入與觀察資料

from google.colab import drive
drive.mount('/content/gdrive')
train = pd.read_csv("/content/gdrive/My Drive/train.csv")
test = pd.read_csv("/content/gdrive/My Drive/test.csv")

記得先上傳至雲端硬碟才能執行底下的程式碼哦~

import pandas as pd
import numpy as np
import seaborn as sns
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
# 觀察資料
train.shape, test.shape
# ((1460, 81), (1459, 80))
train.head()

id是預測過程中完全用不到的資料,因此在處理過程中會先行去除。

train.drop(['Id'], axis=1, inplace=True)
test.drop(['Id'], axis=1, inplace=True)

我們可以針對預測目標進行視覺化,並且在這類的回歸型問題中,盡量將數據整理成常態分佈的型式,對於模型而言會較於均衡,並不會傾向於預測高或者低。

sns.distplot(train["SalePrice"])

sns.distplot(np.log1p(train["SalePrice"]))

記得指派回原始數據才有效哦!

train.loc[:,"SalePrice"] = np.log1p(train["SalePrice"])

上一篇
DAY[19]-總整理與程式碼
下一篇
DAY[21]-Kaggle實戰 補值與特徵新增(1)
系列文
Python機器學習介紹與實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言