我們在進入實作之前需要先知道要怎麼處理資料,有些資料電腦不知道怎麼處理,而這時我們就必須將資料進行一些轉換,使電腦能夠理解我們的意思,這個轉換的過程我們就稱為預處理。
預處理有分為很多種,要先觀察這幾筆資料是哪裡讓電腦沒辦法理解,例如我們的學歷,學歷在我們這裡大致分為三類,1.高中以下 2.大學 3.碩士以上,而電腦並不知道這三種學歷的先後順序,當我們將資料輸入進模型時可能或出現錯亂,所以我們需要告訴電腦我們的分類。
示範:
先利用pandas將三個人分別把學歷設定為三類
import pandas as pd
educationLevel = ['高中以下', '大學', '碩士以上']
name = ['Sarah', 'John', 'Kyle']
s = pd.DataFrame({
'name': name,
'educationLevel': educationLevel,
})
s
接下來我們要做的事就是將'高中以下', '大學', '碩士以上'三項進行轉型,可以利用map()這個函數將高中以下設為1,大學設為2,碩士以上設為3
s["educationLevel"] = s["educationLevel"].map({"高中以下": 0, "大學": 1, "碩士以上": 2})
s
這樣電腦就可以利用123這三個值進行運算了。