之後就是把創建出來的資料集用left_join的方式把資料重新放回原本的資料集,讓每個數值都變成機率的概念。
這次目標編碼的目的是要做xgb 極限梯度提升
「透過極限梯度提升,我們能夠大幅度提升模型表現,這是拜更精準的模型損失評估所賜,同時,我們也並不用擔心這些運算會導致訓練速度過慢,這個演算法的設計准許電腦CPU能夠多線並行」
聽說這個方法是在我畢業後很火紅的演算法,因為沒有跟到,所以之後就會往這邊順便實作跟學習,然後我有找到一篇非常適合學習的,其實我應該一開始就找,不應該用自己想的從目標編碼開始(好像有內建,不必自己轉換(?)),算了也罷,就當作練習Rcode吧。
明天開始會試著找幾篇來做看看極限梯度提升,補一個進度。
a4 = data.frame(rep(0,nrow(fraud_train)))
for (i in 1:3) {
a3 = left_join(fraud_train, dat[[i]])
a4 = cbind(a4,a3[,24])
colnames(a4)[i+1] = colnames(a3)[24]
}
參考: https://steve-chen.tw/?p=369