iT邦幫忙

0

PCIe, Ethernet & GPU的Bottleneck

  • 分享至 

  • xImage

最近要開始做ML/DL,開始在研究NV的H100以及網卡的東西,但對於頻寬與bottleneck的數字感到很迷惑,希望可以解惑。

  1. GPU :
    Item : H100 PCIe
    Memory : 80GB HBM2e
    BW : 2TB/s

  2. NIC :
    Item : ConnectX-7
    BW : 400 GbE/s => 50 GB/s?

Platform :
Intel PCIe Gen 5.0 x16 (64 GB/s)

大家常常再說,現在的顯卡跑PCIe Gen 5 x16頻寬綽綽有餘,吃不滿。
但如果在24/7 full loading並不討論latency的情況下:
(1) H100的記憶體頻寬是2TB/s,所以如果要從系統中調資料持續做運算。
所謂的PCIe Bottleneck就是Gen 5 x16的64GB/s嗎?

(2) 如果用GPUDirect Storage用CX7的NIC(400 GbE/s)從另一個Node傳輸資料。
Bottleneck會是中間的PCIe Gen 5 x16的64GB/s,以及400 GbE/s => 50 GB/s嗎?

(3)如果我用顯卡圖像運算模型,計算完連接到螢幕的display,跟記憶體頻寬會有關係嗎?

我想我對數字上的疑惑就是用HBM動輒頻寬TB/s,GDDR也是數百GB/s。
所以代表目前Gen4 or Gen5的顯卡在PCIe Gen 5的lanes上都是bottleneck嗎?

圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友回答

立即登入回答