很多模型只能夠處理數字,所以當我們有類別變數的時候需要先轉換成數字,而轉換的方法有兩種,
針對類別變數我們有兩種方法可以處理:
label encoding: 單純的把類別換成1,2,3...的數字,要注意這樣的方法必須應用在ordinal data,也就是類別本身有大小區別,比如size大中小,可以換成123,因為類別可排序。
vectorize (one-hot encoding): 如果類別本身無法比較排序,那我們就只能使用one-hot encoding,也就是針對每個類別多增加一個欄位,並且用 0/1標是是否為該類別,如下圖比如類別有不同顏色,那每個顏色都會變成新的一欄。
[reference]
https://towardsdatascience.com/building-a-one-hot-encoding-layer-with-tensorflow-f907d686bf39