iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 26
1
AI & Data

那些年我們一起學過的深度學習系列 第 26

[DAY 26] 分散式訓練

  • 分享至 

  • xImage
  •  

前言


在上一章我們知道如何在一台機器上使用多張 GPU 來Training,這對我們 Train 大 Model 或者快速的 Train 一個 Model 已經會有明顯的幫助了!!但貪心的我們是不是還是有點想要更好XDDDDD但其實也不全然是貪心啦,像是如果 Alpha GO 當初只用一台插著 4張 GPU 的機器去做 Training ,那麼他當初應該還 Train 不好就要去比賽了XDD 或許我們聽說過 : ㄟ~不是有一種伺服型的機器是可以插超過4張 GPU 嗎?但這其實在某些 Case 仍然遠遠不夠QQ 像上面的 Alpha GO 怕是要 2000 片吧QQ 那麼今天就要來介紹一種可以更大擴大 GPU 數量的平行化方法 : 分散式訓練。

p.s 這邊的分散式訓練特別指括機器的分散式訓練

分散式訓練

基本邏輯

硬體資源以及雲端計算

自行籌組實體機器

雲端計算

  • AWS
  • TWCC

Pytorch 實例

結語


上一篇
[DAY 25] Multi-GPU 計算
下一篇
[DAY 23] Visualize
系列文
那些年我們一起學過的深度學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言