iT邦幫忙

0

yolov5 訓練跑到一半才跳CUDA out of memory

  • 分享至 

  • xImage

如標題所述,
當在執行指令python train.py --data tm_240602/data.yaml --epochs 90 --weights "yolov5x.pt" --batch-size 62 --hyp data/hyps/hyp.scratch-med.yaml --name tm_240602_62_90_hyp --resume

前面跑了大概10來次都沒問題,
都會途中才跳出CUDA out of memory,如圖
https://ithelp.ithome.com.tw/upload/images/20240604/20109472ojuYPquqNw.png

途中也有執行過幾次nvidia-smi看顯卡狀況,雖然有增加且接近滿載,但還是有剩下
https://ithelp.ithome.com.tw/upload/images/20240604/201094721RPFqYBNxb.png

想請問有辦法怎麼修改呢?

froce iT邦大師 1 級 ‧ 2024-06-04 14:05:45 檢舉
不是看起來還有剩就是沒用完,會跳錯誤就是你顯存不夠,減少batch size、用CPU慢慢跑或是colab選一個。
hye iT邦新手 5 級 ‧ 2024-06-04 17:50:56 檢舉
建議跑的時候可以觀察一下電腦效能。
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

0
增廣建文
iT邦研究生 5 級 ‧ 2024-06-07 13:15:21

GPU 0的VRAM看起來一直都接近滿載
建議研究一下目前三卡是怎麼分配batch的

我要發表回答

立即登入回答