Day 18 : 模型前的資料處理 (2)

2021 iThome 鐵人賽

DAY 18

自我挑戰組

Python資料分析學習地圖系列第 18 篇

13th鐵人賽 sklearn 交叉驗證 onehotencoder 資料降維

皮卡丘打排球

2021-09-30 03:08:37

19348 瀏覽

分享至

接著昨天的資料處理繼續說明，今天來看看類別資料轉換、資料降維、資料切割、交叉驗證以及不不均衡的對應方法。
OS:資料預處理真的很重要啊啊！！

5.類別資料轉換

由於機器學習無法了解每個類別所代表的意思，必須將輸入的資料轉換成為數值，因此我們必須將類別變數轉換成數值。常用的有 LabelEncoder 和 OneHotEncoder。

LabelEncoder

將類別資料轉換成數值順序，將該欄類別映射到整數，不會新增欄位。像是衣服的size有分，假設某一份資料有 S、Ｍ、Ｌ、XL，依照 LabelEncoder 可以分成 0、1、2、3。而此時衣服大小有程度上的差異時，就會比較適合使用 LabelEncoder，讓機器學習該欄位(因子)的大小關係。

from sklearn.preprocessing import LabelEncoder

# LabelEncoder
labelencoder = LabelEncoder()
train['Sex'] = labelencoder.fit_transform(train['Sex'])
train.head()

或是 pandas

train['Sex'].astype('category').cat.codes

OneHotEncoder

然而，將類別轉換成數值形式會有大小之分。如果該欄位沒有程度上的差異(例如性別)，可能就比較不適合 LabelEncoder，會改用 OneHotEncoder。

OneHotEncoder (更常聽到 One-Hot Encoding(獨熱編碼))，描述將一個欄位有 N 種狀態，改為 N 種欄位。需要注意的是，如果該欄位的 N 過大，往往會造成維度災難(一下子會變超多欄位要預測)，這時候可以再搭配降維(PCA)的操作，讓資料維度進行縮減避免特徵空間過於龐大。因此要是 OneHotEncoder 的類別數目不太多，可以建議優先考慮之。

然而，有些演算法不需要，像是 tree based (像是 Random Forest 等等) 類型的演算法，不太需要使用 One-Hot Encoding，使用它會增加樹的深度。

from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder()
onehot = onehotencoder.fit_transform(train[['Sex']]).toarray()
pd.DataFrame(onehot)

或是 pandas

data_dum = pd.get_dummies(train['Sex'])
pd.DataFrame(data_dum)

直接迴圈進行類別處理

比較偷懶的方式，對每個欄位使用 LabelEncoder。做機器學習做初步的嘗試時，可以不進行任何資料特徵處理丟到機器學習，先得到第一次(或數次)的模型評估評估成效當作基準(baseline)，有了 baseline 就可以超過它為目標，做其他不同嘗試。(一個先找到低標的概念，之後９４超越它)

# 用迴圈的方式來做更快
for _ , col in enumerate(train.columns.tolist()):
    if train[col].dtype == 'object':
        train[col] = train[col].astype('category').cat.codes

6. 資料降維 (Dimension Reduction)

通常降維我們會採用「主成分分析」(Principal Component Analysis, PCA)，是一種特徵擷取(Feature Extraction)的方法。該方法希望將高維度的資料減少，但又不會影響資料原本的特性。其用意就是將複雜的問題簡單化，萃取資料的精華再給機器學習演算法。

n_components 可選擇降到多少維度

from sklearn.decomposition import PCA

X = train.drop(['Survived'], axis=1)

X = PCA(n_components=2).fit_transform(X)

7. 資料切割 (train-test-split)

拿到資料的時候，我們應該會有 training data ，testing data 不一定會有(因為有可能是未來的資料)。而在進行監督式的機器學習，我們通常會將 training data 進行資料切割，為了讓模型在學模仿未來的環境。讓模型去學習訓練集的資料，讓模型去對驗證集的答案，藉此讓我們了解在沒看過的資料下的表現。

通常拿到一包資料可以分類 trainin data 和 testing data (testing data 不會當作訓練資料)

training data: 又可以分為訓練集和測試集，這包資料的切分比例通常有 8:2 或 9:1
testing data: 測試集

from sklearn.model_selection import train_test_split

X = train.drop(['Survived'], axis=1)
# 看是否需要降維
# X = PCA(n_components=2).fit_transform(X)
y = train.Survived
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

這裡提醒一下，testing data 是測試集，是不可以拿去進行資料切割(如果你拿了，那演算法會看到答案等於作弊XD)。X_train, y_train 這邊是指訓練集；X_test, y_test 則是驗證集