iT邦幫忙

2021 iThome 鐵人賽

DAY 20
0
AI & Data

Python 機器學習實驗室 ʘ ͜ʖ ʘ系列 第 20

vectorize VS label encoded

  • 分享至 

  • xImage
  •  

很多模型只能夠處理數字,所以當我們有類別變數的時候需要先轉換成數字,而轉換的方法有兩種,
針對類別變數我們有兩種方法可以處理:

  1. label encoding: 單純的把類別換成1,2,3...的數字,要注意這樣的方法必須應用在ordinal data,也就是類別本身有大小區別,比如size大中小,可以換成123,因為類別可排序。

  2. vectorize (one-hot encoding): 如果類別本身無法比較排序,那我們就只能使用one-hot encoding,也就是針對每個類別多增加一個欄位,並且用 0/1標是是否為該類別,如下圖比如類別有不同顏色,那每個顏色都會變成新的一欄。

https://ithelp.ithome.com.tw/upload/images/20211002/20142004m3oSKKhTSm.png

[reference]
https://towardsdatascience.com/building-a-one-hot-encoding-layer-with-tensorflow-f907d686bf39


上一篇
Cross validation是哪位?
下一篇
Neural network基礎架構
系列文
Python 機器學習實驗室 ʘ ͜ʖ ʘ30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言