有了訓練、測試等資料集,要驗證模組是否正確,也就需要驗證集(validation data)
〈圖一、訓練與測試集〉
我們把資料分成兩個部分,一個是訓練集,一個是測試集。可以藉由調整一些學習率、超參數等等來訓練模型,並且用測試模集來檢驗我們的模型,找出最好的模型,這就是調整模型(Tweak model)。但是這樣有時候會過度調整,這時候可以把數據分成三個部分:traning set, validation set and test set。
〈圖二、新的資料結構,分成訓練、驗證、測試〉
所以流程會變成:訓練出模型後(於traning set),用**驗證集(validation set)驗證結果;當通過之後才進入測試集(test set)**中確認最後的資料。這樣的狀況避免直接使用測試集資料去做調整模型。
〈圖三、新的作業流程〉
睫毛之聲:
除了昨天文章提到的測試集外,又多了認證集(validation set),以避免我們的模型設計過於偏頗