iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 14
1
AI & Data

特徵工程 in 30 days系列 第 15

[改善資料品質]Part-3 正規化與標準化資料_Min-max scaling

Min-max scaling與z-score normalization同樣有著一組公式:
m = (x -xmin) / (xmax -xmin)

在此公式中的變數:

  • m是正規化後的數值
  • x是欲正規化的數值
  • xmin是該批資料的最小值
  • xmax是該批資料的最大值

使用此正規化方法,通常得出的結果是介於0-1之間的數值。當然此方法一樣可以手刻一個pandas的版本,但sklearn也已經有api可以使用:

from sklearn.preprocessing import MinMaxScaler

min_max = MinMaxScaler()
train_set_min_maxed_b = pd.DataFrame(min_max.fit_transform(train_set), 
                                     columns=train_set.keys())

比對正規化前後的差異:
https://ithelp.ithome.com.tw/upload/images/20181017/20111826u6OY52GyG8.jpg

https://ithelp.ithome.com.tw/upload/images/20181017/20111826Zr9vkmKysf.jpg

正規化前後訓練模型的對照:
https://ithelp.ithome.com.tw/upload/images/20181017/20111826dzh4gU7GpJ.jpg


上一篇
[改善資料品質]Part-3 正規化與標準化資料_Z-score normalization
下一篇
[改善資料品質]Part-3 正規化與標準化資料_Row normalization
系列文
特徵工程 in 30 days23
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言