概率上,我覺得這個方法很不推薦使用,不過算是讓我遇上了比較特定的情況(但如果你的演算法結果很厲害也不用這樣設定閥值),就是數據量很大的時候,我假設我的訊練資料及跟測試資料集的y比例相當。也就是說,我可以讓測試資料集的y比例調整到跟訓練資料集的y比例相當也許會更加準確。
求出訓練資料集的比例,透過比例反算
Ypred1 = ifelse(Ypred[,1]>=0.7,0,1) %>% as.character()
Ypred = factor(Ypred1,levels=levels(fraud_train$fraud_ind))
table(Ypred)[1]/table(Ypred)[2]