先恭喜下第二十天了..
即便競賽中通常會分訓練資料及跟測試資料集,,然後拿測試資料集去評分,可是我們在訓練資料的時候還是要將訓練資料集分成:訓練的鉉練資料及跟訓練的測試資料集才對,一來避免過度擬合二來就是透過這樣的方法我們可以進行交叉驗證去挑選哪一個的模型可能更好,也因為有正確答案,所以可以去看參數設計之後的結果,不過之前居然都沒做,基本上都是靠賽.
n = nrow(fraud_train)
index = sample(seq_len(n), size = round(0.7 * n))
#訓練資料與測試資料比例: 70%建模,30%驗證
traindata = fraud_train[index,]
testdata = fraud_train[ - index,]
如果想要讓每次的結果都一樣的話,通常我都會打
set.seed(12345)
固定隨機
分享網址 : https://www.twblogs.net/a/5b8ecc472b7177188347d39a
查資料的時候找到這篇:https://snaildove.github.io/2018/12/18/get_started_feature-engineering/
一本正經的文,然後他的title超好笑,你點走他就會說崩潰,你點回來他就顯示正常,好..好強,好想學哈哈哈.