standardize VS normalize

2021 iThome 鐵人賽

DAY 18

AI & Data

Python 機器學習實驗室 ʘ ͜ʖ ʘ系列第 18 篇

13th鐵人賽

nancysunnn

2021-10-02 05:30:28

8523 瀏覽

分享至

當我們想要把資料丟進model前，常常會需要把資料標準化，尤其是針對跟距離有關的模型（像是knn, svm等），標準化大概分為standardize和normalize兩種：

standardize：資料點減去平均數在除以標準差，當你覺得資料符合高斯分配時才選擇

normalize：把資料範圍變為[0,1]間，大部分的標準化都會選擇這個方法

這邊有一個非常重要的觀念想要強調，就是在標準化之前必須要把資料先分割好，也就是對training和testing set分別標準化，不然會有data leakage的問題，data leakage是指訓練模型的過程中用到了training set以外的資訊，如果在未分割前就把所有資料標準化，那數值就會隱含著所有資料的分佈，進而影響模型。

[reference]
https://towardsdatascience.com/normalization-vs-standardization-cb8fe15082eb