[DAY 26] 分散式訓練

12th鐵人賽

zivzhong

2020-10-11 22:10:30

1883 瀏覽

分享至

前言

在上一章我們知道如何在一台機器上使用多張 GPU 來Training，這對我們 Train 大 Model 或者快速的 Train 一個 Model 已經會有明顯的幫助了!!但貪心的我們是不是還是有點想要更好XDDDDD但其實也不全然是貪心啦，像是如果 Alpha GO 當初只用一台插著 4張 GPU 的機器去做 Training ，那麼他當初應該還 Train 不好就要去比賽了XDD 或許我們聽說過 : ㄟ~不是有一種伺服型的機器是可以插超過4張 GPU 嗎?但這其實在某些 Case 仍然遠遠不夠QQ 像上面的 Alpha GO 怕是要 2000 片吧QQ 那麼今天就要來介紹一種可以更大擴大 GPU 數量的平行化方法 : 分散式訓練。

p.s 這邊的分散式訓練特別指括機器的分散式訓練

分散式訓練

基本邏輯

硬體資源以及雲端計算

自行籌組實體機器

雲端計算

AWS
TWCC

Pytorch 實例

結語

[DAY 25] Multi-GPU 計算

[DAY 23] Visualize

系列文

那些年我們一起學過的深度學習共 30 篇

RSS系列文訂閱系列文

21 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

那些年我們一起學過的深度學習系列 第 26 篇