iT邦幫忙

0

深度學習系統架構:分散式VS單台超級機器

大家都知道第一代AlphaGo是使用分散式系統約1920顆CPU,280顆GPU,然而最近好像蠻流行單台服務器插多片強大的GPU(例如:P100),到底哪種軟體架構比較適合?可否有大大分享想法或關鍵文章

假設:
使用Tensorflow
網路狀況非常良好
每台機器記憶體都插滿
多顆硬碟平行IO

看你要幹嘛用,還有你的app能不能用上那麼強的的硬體資源而不會出錯
我們這麼說好了,你的app只能用 cpu 4~8c 運算,超過就會出錯,你cpu上到一千顆有用嘛
同樣的你的 app 只能用 cpu 運算,你 gpu 上到一千顆 有用嘛
從來都是需求決定架構,你的app要有能力在這麼強大的硬體下執行而不出錯
你才需要這樣的硬體架構,至於 gpu 用量越來越高,是因為純運算來說,gpu的效能不會比 cpu差
而且以卡的面積來說跟CPU的晶片面積相比,那是大了十倍以上,假若 CPU 可以上到 64C,那大十倍的GPU卡,他的C就能上到640C左右
那單C相同算力之下,GPU就會比 CPU 強十倍,雖然是用面積替換出來,至少在殼內可用空間,可以因此得到最佳運用
r76021061 iT邦新手 4 級 ‧ 2017-12-07 17:24:35 檢舉
感謝發哥的回答!!!

尚未有邦友回答

立即登入回答