iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0
自我挑戰組

深度學習的學習 & ASR 中文語音辨識系列 第 8

【Day 08】深度學習的學習:Train / Dev / Test sets

  • 分享至 

  • xImage
  •  

接下來以 Improving Deep Neural Networks 內容下去寫

在進行機器/深度學習時,我們第一步需要先準備我們的資料集,資料集又會切分成三個部分來處理:Train / Development / Test sets
會是以這種感覺下去分
https://ithelp.ithome.com.tw/upload/images/20230923/20163287QXr9qQdt0L.jpg

  • Train:訓練集,即是訓練模型時會拿來訓練的資料
  • Dev:檢驗集,來檢查要用哪個演算法或是參數的結果最好
    • 大家可能會跟 Test set 搞混,但 dev set 比較像先試個水溫看狀況如何,結果不好那我再調整參數或是演算法,結果不錯才丟 Test set
    • Validation set
  • Test:測試集,模型完成後用來測試模型效能與準確率

實際上的三者比例可能是 60/20/20 或 70/30/0 (%)端看你想要怎麼切,或是你可以以資料集的大小去做分配比例:

  • 數量小:60/20/20 → 🆗
  • 數量大:98/ 1/ 1 → 🆗
    是因為 dev/test sets 是為了評估模型效能,不需要太大資料量
    例如我現在資料及數量有 1,000,000 筆資料,那我 dev/test sets 拿了 1% 出來也有 10,000 筆資料,通常較能代表整體資料的分配

上一篇
【Day 07】深度學習的學習:Parameters vs. Hyperparameters
下一篇
【Day 09】深度學習的學習:Bias & Variance
系列文
深度學習的學習 & ASR 中文語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言