最近要開始做ML/DL,開始在研究NV的H100以及網卡的東西,但對於頻寬與bottleneck的數字感到很迷惑,希望可以解惑。
GPU :
Item : H100 PCIe
Memory : 80GB HBM2e
BW : 2TB/s
NIC :
Item : ConnectX-7
BW : 400 GbE/s => 50 GB/s?
大家常常再說,現在的顯卡跑PCIe Gen 5 x16頻寬綽綽有餘,吃不滿。
但如果在24/7 full loading並不討論latency的情況下:
(1) H100的記憶體頻寬是2TB/s,所以如果要從系統中調資料持續做運算。
所謂的PCIe Bottleneck就是Gen 5 x16的64GB/s嗎?
(2) 如果用GPUDirect Storage用CX7的NIC(400 GbE/s)從另一個Node傳輸資料。
Bottleneck會是中間的PCIe Gen 5 x16的64GB/s,以及400 GbE/s => 50 GB/s嗎?
(3)如果我用顯卡圖像運算模型,計算完連接到螢幕的display,跟記憶體頻寬會有關係嗎?
我想我對數字上的疑惑就是用HBM動輒頻寬TB/s,GDDR也是數百GB/s。
所以代表目前Gen4 or Gen5的顯卡在PCIe Gen 5的lanes上都是bottleneck嗎?