iT邦幫忙

2021 iThome 鐵人賽

DAY 18
0
AI & Data

Python 機器學習實驗室 ʘ ͜ʖ ʘ系列 第 18

standardize VS normalize

當我們想要把資料丟進model前,常常會需要把資料標準化,尤其是針對跟距離有關的模型(像是knn, svm等),標準化大概分為standardize和normalize兩種:

standardize:資料點減去平均數在除以標準差,當你覺得資料符合高斯分配時才選擇
https://ithelp.ithome.com.tw/upload/images/20211002/20142004qi7Z9WHiKL.png

normalize:把資料範圍變為[0,1]間,大部分的標準化都會選擇這個方法
https://ithelp.ithome.com.tw/upload/images/20211002/201420042NlPsoTef1.png

這邊有一個非常重要的觀念想要強調,就是在標準化之前必須要把資料先分割好,也就是對training和testing set分別標準化,不然會有data leakage的問題,data leakage是指訓練模型的過程中用到了training set以外的資訊,如果在未分割前就把所有資料標準化,那數值就會隱含著所有資料的分佈,進而影響模型。

[reference]
https://towardsdatascience.com/normalization-vs-standardization-cb8fe15082eb


上一篇
p value到底怎麼解釋
下一篇
Cross validation是哪位?
系列文
Python 機器學習實驗室 ʘ ͜ʖ ʘ30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言