[DAY 22] 朋友不夠用?我找朋友的朋友一起來打團戰 : 分散式訓練

11th鐵人賽

zivzhong

2019-10-08 23:57:07

797 瀏覽

分享至

前言

有句古老的話是這麼說的:

自己的朋友不夠用?那就借別人的一起來用呀?
----阿峻20191008

在上一章我們知道如何在一台機器上使用多張 GPU 來Training，這對我們 Train 大 Model 或者快速的 Train 一個 Model 已經會有明顯的幫助了!!但貪心的我們是不是還是有點想要更好XDDDDD但其實也不全然是貪心啦，像是如果 Alpha GO 當初只用一台插著 4張 GPU 的機器去做 Training ，那麼他當初應該還 Train 不好就要去比賽了XDD 或許我們聽說過 : ㄟ~不是有一種伺服型的機器是可以插超過4張 GPU 嗎?但這其實在某些 Case 仍然遠遠不夠QQ 像上面的 Alpha GO 怕是要 2000 片吧QQ 那麼今天就要來介紹一種可以更大擴大 GPU 數量的平行化方法 : 分散式訓練。

p.s 這邊的分散式訓練特別指括機器的分散式訓練

分散式訓練

基本邏輯

硬體資源以及雲端計算

自行籌組實體機器

雲端計算

AWS
TWCC

Pytorch 實例

結語

[DAY 21] 一個人做不完的事不如團戰 : 多GPU計算

[DAY 23] 進化之路的隨筆紀錄 : Visualize

系列文

從零開始或許曾經想過但想想還是算了的深度雜技共 30 篇

RSS系列文訂閱系列文

12 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

從零開始或許曾經想過但想想還是算了的深度雜技系列 第 22 篇