iT邦幫忙

2023 iThome 鐵人賽

DAY 14
0
AI & Data

夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!系列 第 14

Day 14 第二站 Exploratory Data Analysis - 資料前處理

  • 分享至 

  • xImage
  •  

資料前處理百百樣,以下簡單整理各大項目來跟大家說明:

1. 資料遺失的處理-Missing Value

  • 以平均值或中位數補差值
    方法簡單,但缺點是無法反應遺失的特徵值和其他特徵的關係。
  • 以機器學習模型推測差值
    用機器學習模型來推測資料遺失值。

2. 資料不平衡的處理-Unbalanced Data

資料類別數量不平衡,某一個類別的資料量特別多。可以處理的方法如下:

  • Upsampling:複製類別數量較小的數量。這方法可能會讓模型過度學習特定樣本的樣態。
  • SMOTE:全名是Synthetic Minority Over-sampling Technique,是一種根據隨機抽樣和計算鄰近樣本相似度去產生新樣本的方法。
  • Downsampling:移除類別數量較多的數量。多數情況,不是很好的方法,因為我們會因此遺失數據的一些關鍵數據,讓後續模型的訓練泛化程度降低。
  • 調整模型預測的門檻值:舉離來說,沒有違約的數量遠大於違約的數量,模型傾向預測樣本是沒有違約,為了減少這種誤判,可以拉高沒有違約的判斷標準,將模型的信心度從大於50%拉到大於60%,以此增加抓到違約的比率。但這會犧牲一些用戶,明明沒有違約的風險,卻被誤判是違約的。這個方法等於是兩面刃。

3. 離群值的處理-Outlier

資料常態分配條件下,如果數據位於三個標準差之外,可以識別為離群值來處理。如果資料非常態分配,可採用盒鬚法來做離群值的處理。盒鬚法會定義所謂的四分位差(IQR),是第三分位數(第75百分位數=Q3)減第一分位數(第25百分位數=Q1)的差值,而離群值就是大於第三分位數加上1.5IQR以及小於第一份位數扣除1.5IQR的數值。

4. 數據分箱-Binning

透過數值的區間定義,讓一些資料可以被定義成相同的特徵。透過數據分箱,可以滿足簡化模型的需求。

5. 數據轉換-Transforming

將資料數值丟入一個函數中,所得到的新的數值,讓模型可以更好的學習特徵。例如,透過log transform,能讓數據分佈更貼近常態分佈,滿足許多模型的常態分佈前提假設,讓模型在學習時,可以更加穩定。此外,log transform能讓數據區間更加集中,減少異常數據帶來負面影響。

6. 數據編碼-Encoding

類別資料無法直接被讀取,因此需要另外去做編碼。Onehot encoding是最常見的編碼方式之一。

7. 資料正規化-Scaling and Normalization

如其他文章所述,資料的正規化,可以避免模型過度方大特定的特徵值、給予不合理的權重。
此外,一些模型要求訓練集資料是常態分佈,因此需要去做資料的normalization。

8. 資料洗牌-Shuffling

資料之間如果有次序性,模型訓練時候,會學到這個次序。然而,實際的應用場景,並沒有這種次序性,這會導致模型預測的誤判。因此,我們需要先將資料隨機打散,讓模型更具備通用性。


问题 1: 在进行机器学习模型的训练之前,你决定对数据进行洗牌以随机化数据顺序。在这种情况下,为什么洗牌是重要的?
A. 洗牌有助于提高数据的可解释性
B. 洗牌可以减少模型的复杂性
C. 洗牌有助于模型更好地泛化到新数据
D. 洗牌可以降低模型的方差

答案 1: C. 洗牌有助于模型更好地泛化到新数据

解释 1: 洗牌有助于模型学习数据的独立性,从而更好地泛化到新的未见数据。

问题 2: 当你想要将一组连续数值转换为一组符合正态分布的数值时,你应该采取哪种数据变换方法?
A. 对数变换(Log Transformation)
B. 标准化(Normalization)
C. 区间缩放(Min-Max Scaling)
D. 指数变换(Exponential Transformation)

答案 2: A. 对数变换(Log Transformation)

解释 2: 对数变换常用于将偏态分布的数据转换为接近正态分布的数据,有助于改善模型的性能。


上一篇
Day 13 第二站 Exploratory Data Analysis - EMR
下一篇
Day 15 第二站 Exploratory Data Analysis - 文字特徵工程(TFIDF)
系列文
夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言