[Day 13] Validation / 驗證 - Part II - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 11 屆 iThome 鐵人賽

DAY 13

AI & Data

跟top kaggler學習如何贏得資料分析競賽系列第 13 篇

[Day 13] Validation / 驗證 - Part II

11th鐵人賽

madeleine

2019-09-14 22:02:16

1276 瀏覽

分享至

Validation strategy

. Holdout
. K-fold
. LOO / Leave-one-out

Holdout : 比較像是切割資料後分作Ａ.訓練, B.驗證, A與B不重複

ngroup=1

sklearn.model_selection.shuffleSplit

截圖自coursera

K-fold : K折交叉驗證, 資料切割成Ｋ項, 每次取一項目當子樣本驗證, 剩餘資料採 K-1 當作訓練, 直到 K 項都完成子樣本驗證

ngroups=k

sklearn.model_selection.kfold

截圖自coursera

LOO / Leave-one-out : 留一交叉驗證, 每次留一個樣本, 其餘都當作訓練, 直到Ｎ個樣本跑完

ngroups=len(train)

sklearn.model_selection.LeaveOneOut

截圖自coursera

Data splitting strategy

採用交錯或時間序列的判斷是找出競賽出題者的方式, 直接複製出題者是用哪一種, 這樣對 model 效果最好

Previous and next target values	Time-based trend

下表是 4 種切割 train, validation 方法, 建議找出並模仿題目的資料切割方法

Random, rowwise	Timewise	By id	combinations

提醒

問題 :

時間序列的競賽, 要留意日期的特性會導致 overfitting 或 underfitting, 因為耶誕節前一個月跟當月的日期屬性差異大, 所以要調整資料切割的方法
依照資料分布, 調整不一致/過於多元的資料

對策 : 採 K-fold / K折(通常折5個)資料集, 取每個資料集為平均分數的結果

後言 : 已經接近一半, 所以今天也開始找 Kaggle 比賽, 要開始一步步照著課程實作.(cross my fingers)

[Day 12] Validation / 驗證 - Part I

[Day 14] 以 Springleaf competition 實作 EDA

系列文

跟top kaggler學習如何贏得資料分析競賽共 30 篇

RSS系列文訂閱系列文

21 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22195 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

跟top kaggler學習如何贏得資料分析競賽 系列 第 13 篇

[Day 13] Validation / 驗證 - Part II

Validation strategy

Holdout : 比較像是切割資料後分作 Ａ.訓練, B.驗證, A與B不重複

K-fold : K折交叉驗證, 資料切割成Ｋ項, 每次取一項目當子樣本驗證, 剩餘資料採 K-1 當作訓練, 直到 K 項都完成子樣本驗證

LOO / Leave-one-out : 留一交叉驗證, 每次留一個樣本, 其餘都當作訓練, 直到Ｎ個樣本跑完

Data splitting strategy

提醒

尚未有邦友留言

標記使用者

跟top kaggler學習如何贏得資料分析競賽系列第 13 篇

Holdout : 比較像是切割資料後分作Ａ.訓練, B.驗證, A與B不重複