iT邦幫忙

1

算力的盡頭是物理:從 Cerebras 與 NVIDIA 的架構分歧,看 AI 晶片的演進哲學

WM 2026-05-19 21:48:16349 瀏覽
  • 分享至 

  • xImage
  •  

https://ithelp.ithome.com.tw/upload/images/20260519/201125738p0txrRidZ.jpg
Source:cerebras.ai

AI 晶片設計公司 Cerebras Systems(CBRS)於美東時間 5 月 14 日在 Nasdaq 掛牌上市,首日以每股 350 美元開盤。次日(15 日)收盤價為 279.72 美元,市值約 600 億美元。

這場 IPO 之所以受到關注,是因為 AI 市場正在尋找 NVIDIA 之外的第二種方案。

過去兩年,NVIDIA 高階 GPU 幾乎統治了 AI 算力。但價格昂貴、供貨吃緊,也讓雲端巨頭與 AI 公司開始研發自己的晶片,以擺脫對 NVIDIA 的依賴。

不過,今天我們不細談 IPO 與財報數字。我想從另一個角度分析:為什麼市場會把 Cerebras 視為「NVIDIA 的潛在競爭者」?

》顛覆常理的 WSE 架構:為消滅「資料搬運」而生的巨獸

市場對於 Cerebras 如此寄予厚望,關鍵就在它最顛覆性的技術:Wafer-Scale Engine,WSE,傳統晶片廠商(包括 NVIDIA)會把一整片晶圓切割成數十到數百顆小晶片,但 Cerebras 直接把整片晶圓當成一顆晶片使用。

Cerebras 為什麼要這樣做?是為了解決傳統 GPU 架構的根本問題

一般 AI 運算,尤其是大型語言模型(LLM),不可能只靠一顆 GPU 完成。系統通常要將數百顆、甚至數千顆 GPU 做串聯運算。

節點內靠 NVLink 互連,跨節點則靠 InfiniBand 或高速乙太網路,將所有的 GPU 串在一起。

運算的資料在晶片與晶片之間不斷搬移。這種「資料搬運」產生的延遲,正是 AI 推論速度的最大瓶頸,尤其對於大型語言模型(LLM)而言,token 生成速度高度受制於記憶體頻寬,而非純算力。

資料傳輸目前遭遇兩個核心問題:

記憶體頻寬瓶頸
LLM 推論時,運算核心需要不斷地從記憶體讀取模型參數,等待資料的時間遠多於實際運算的時間。

晶片間通訊延遲
當模型大到需要跨多顆 GPU 時,資料不只在晶片與記憶體之間搬移,還要跨晶片傳輸,跨節點時延遲更為嚴重。

》NVIDIA 如何解決?

第一個問題,記憶體頻寬瓶頸
採用 HBM(High Bandwidth Memory,高頻寬記憶體),將記憶體透過先進封裝技術(CoWoS)直接堆疊在 GPU 晶片旁,大幅縮短資料傳輸的物理距離。

第二個問題,晶片間通訊延遲
NVIDIA 建立一套「由內到外」的兩層架構,以對應不同規模的傳輸需求:

第一層:機櫃內(NVLink + NVSwitch)
NVLink 是 NVIDIA 的高速晶片間互連技術,最新第六代(Rubin 平台)單顆 GPU 雙向頻寬達 3.6 TB/s,比 PCIe Gen6 高出 14 倍。簡單比喻:PCIe 是省道,NVLink 是高速公路。

https://ithelp.ithome.com.tw/upload/images/20260519/20112573Gk0IGFpP7x.png
Source:NVIDIA

NVLink 搭配 NVLink Switch 交換器晶片,可在機櫃內實現全對全(All-to-All)全互連,讓 72 顆 GPU 表現得像單一超大 GPU。

https://ithelp.ithome.com.tw/upload/images/20260519/20112573Sm8P1qedKR.png
Source:NVIDIA

NVLink 是連接 GPU 的高速線路,NVLink Switch 是讓所有這些線路能互通的中央交換器。

第二層:跨機櫃(InfiniBand + Lumentum)
機櫃內最多 72 顆 GPU,但大型 AI 訓練動輒需要數萬顆 GPU 分散在數百個機櫃上。NVIDIA 收購 Mellanox 後,用 InfiniBand 技術把這些機櫃串成一個超大叢集。

機櫃間距離一長就必須改用光纖傳輸,這也是為何 NVIDIA 同時斥資 20 億美元投資 Lumentum、再投 20 億美元投資 Coherent,合計砸 40 億美元綁定兩大光元件廠商確保產能。

Lumentum 擅長裸晶片層的高速雷射光源,Coherent 則提供更完整的光收發器模組,兩者都是電光轉換這條連線的關鍵元件。

但這套解法也有代價
HBM 記憶體每一代頻寬都在提升,但 GPU 的算力提升得更快,記憶體永遠追不上算力,瓶頸只是從嚴重變成「比較不嚴重」,從未真正消失。NVLink 解決了機櫃內的問題,但目前跨機櫃通訊頻寬仍比機櫃內低,機櫃之間的通訊延遲依然存在,規模越大問題越明顯。

》Cerebras 如何解決?

記憶體頻寬瓶頸
直接把 SRAM 做在晶圓上,緊貼著運算核心。運算核心要讀取模型參數,不需要離開晶片去外部記憶體拿資料,每個時脈週期就能存取。

NVIDIA 的做法是「讓記憶體靠近晶片」(HBM),Cerebras 的做法是「讓記憶體就在晶片上」。

晶片間通訊延遲
因為整片晶圓就是一顆晶片,90 萬個核心之間的通訊全在晶片內部完成,大幅減少跨晶片通訊的問題 。核心之間透過 Cerebras 自研的 Swarm Fabric 2D 網狀結構互連。

但 WSE 不是萬能的
WSE 透過將數十萬個運算核心與大量 SRAM 片上記憶體整合在同一片晶圓上,大幅縮短資料搬移路徑,明顯緩解上述兩項瓶頸。

但每一片晶圓上只有 44 GB SRAM,遠不足以放下一個完整的大模型。系統仍需搭配稱為「Memory X」的外部 DRAM 單元來儲存完整的模型權重,所以 WSE 只是大幅縮減記憶體瓶頸,而非完全消除。

》顛覆常理的代價:製造『巨無霸晶片』必須翻越的三座大山

技術優勢,不代表商業上一定成功,製造一片整晶圓尺寸的晶片將面臨三大難題:

難題一:良率極限 — 不消滅瑕疵,而是「容忍瑕疵」
晶圓上不可避免地存在微小瑕疵。一般切割成小晶片,有瑕疵的那顆丟掉,其他顆不受影響,良率損失可控。但把整片晶圓當一顆晶片,只要有任何一個區域有瑕疵,整片就可能報廢 。

Cerebras 的解法,是從一開始就認定瑕疵一定會存在

做法是在架構層設計大量備用核心,測試時發現壞掉的核心就自動繞過、用備用的替換,容忍瑕疵而非避免瑕疵。

這套方法極難複製。Cerebras 用將近 10 年磨一劍才做到,這也成為其他同業最難跨越的護城河。

但就算 Cerebras 宣稱已自研容錯架構可繞開瑕疵區塊,大規模量產的穩定性,還需要時間驗證。

難題二:散熱瓶頸 — 挑戰不在夠冷,而在「極致均勻
整片晶圓的功耗過於集中,Cerebras 為此設計了一套專用的散熱方案—「引擎塊(Engine Block)」。

就是把晶圓夾在供電板(上) 與 微流道水冷板(下) 之間,冷卻水直接貼著晶圓背面流過,以最短距離帶走熱量,加熱後的水在機箱內循環並由底部風扇排熱,整個迴路完全封閉、不需外接設備。

這種設計最難的地方不是「夠冷」,而是要「夠均勻」,若晶圓各區域溫差過大,矽材料熱膨脹不一致會導致裂片。

https://ithelp.ithome.com.tw/upload/images/20260519/20112573sSsolMkusV.png

難題三:供電危機 — 捨棄橫向傳輸,改走「垂直供電」
一個社區如果只有一個總水管進來,再分配到每戶,離水源越遠的住戶水壓就越低。WSE-3 有 90 萬個核心分布在一片巨大晶圓上,如果電流從邊緣送入再橫向傳遞,遠端核心的電壓會比近端低,導致效能不一致甚至燒毀。

Cerebras 的解法是:不走橫向,改走垂直。
供電板直接貼在晶圓正面,電流從上方垂直往下打入每個區塊,就像每戶都有自己的專屬水管從天花板接下來,每個核心取電距離幾乎相同,電壓自然均勻。

穩定供電,還有一個難題:當 AI 工作負載批次切換時,數萬安培電流瞬間歸零,會產生破壞性的電流突波(Current Spike)

Cerebras 的解法是在控制邏輯中插入「虛擬運算(Dummy Operations)」,在空檔自動填充假計算,讓電流消耗保持平穩,避免突波燒毀電路。

》從應用場景看 AI 晶片:Cerebras WSE-3 與 NVIDIA Rubin 的分工哲學

Cerebras 的旗艦是 WSE-3,NVIDIA 的下一代旗艦則是 Rubin。

今天我們不談硬體規格,直接從「應用場景」切入:究竟什麼樣的需求,該搭配哪一種架構?

WSE-3 和 Rubin 的設計出發點完全不同:

  • WSE-3 旨在解決「資料搬運」的痛點:它把整個晶圓做成一顆超大晶片,盡量讓模型留在晶片內運算,減少資料來回移動,追求的是低延遲、高效率。

    應用場景:

    • 語音 AI、即時翻譯
    • 聊天機器人、即時對話
    • 需逐步推理完成任務的 AI 代理(Agentic AI)
    • 每次生成都必須極快、不容許卡頓的應用
  • Rubin 是追求算力最大化:靠著多晶片生態系統與 CUDA 軟體護城河,把整個系統堆成一座可擴張的 AI 工廠。

    應用場景:

    • 訓練超大模型
    • 同時跑很多不同的 AI 模型
    • 大量用戶同時使用
    • 原本就高度依賴 NVIDIA 生態系的企業

這兩者其實不是競爭對手,而是各司其職的分工
WSE-3 適合將「資料搬運」的成本壓到最低;而 Rubin 則適合將「算力規模」推向最大。

Cerebras 崛起,台灣 AI 供應鏈卻難以共鳴

Cerebras 標誌性的「WSE」系列全線委由台積電代工,從 WSE-2 的 7 奈米到 WSE-3 的 5 奈米,這顆整合 4 兆顆電晶體與 90 萬個 AI 核心的巨型晶片,無疑是目前整合度最高的商用晶圓級晶片之一。隨著 OpenAI 與其簽下逾 200 億美元的長期合約,市場也開始關注,台積電究竟能從這筆大單中受益多少。

資深半導體分析師陸行之的估算比較務實,這張合約換算成 Cerebras 未來幾年要向台積電採購的晶片金額,大概落在 50~70 億美元之間,而且是「未來幾年」攤提,不是明年就會發生的事。

攤開來算:50~70 億美元除以 3 年,每年約 17~23 億美元,占台積電年營收大概 1.4%~1.9%。對照 NVIDIA、Apple、AMD 這些大戶,Cerebras 目前的量級仍難以相提並論。

台灣供應鏈有沒有吃到這波?

答案目前是:沒有太多。

Cerebras 整機的散熱與供電核心,主要來自美國的 Vicor,不是台灣廠商。更有趣的是,Vicor 已經對台達電(Delta Electronics)提起專利侵權訴訟,兩邊在電源模組這塊明顯是競爭關係。

這也是 Cerebras 和 NVIDIA GPU 伺服器生態最大的差異,後者供應鏈裡滿滿都是台灣 ODM、散熱、電源廠,Cerebras 目前幾乎沒有公開揭露的台灣直接供應商。

台積電確實是受益者,但幅度有限,現階段的意義更多是「未來成長的想像空間」,而不是當下能反映在財報上的重大貢獻。至於台灣供應鏈,這波暫時還沒有太多著力點。

》Cerebras 營運結構分析:客戶集中度風險與地緣政治挑戰

Cerebras 現在最大的隱憂,是最大單一客戶佔總營收比太高。

2024 上半年,光是 G42(阿聯酋科技集團)一家就貢獻了 87% 的營收。到了 2025 年,G42 的占比雖然降到 24 %,但另一家大戶 MBZUAI(穆罕默德・本・扎耶德人工智慧大學),則是吃下了 2025 年高達 62% 的營收。

看出端倪了嗎?Cerebras 的主要收入,被中東企業牢牢掐住。

高階 AI 算力的合作本來就不是單純的商業行為,背後直接牽扯到美國出口管制與國家戰略。

再加上中東局勢本就極為不穩,只要美國政府對中東的政策風向一變,這幾張大單隨時都有腰斬的可能。

這也是為什麼,市場會緊盯著 Cerebras 與 OpenAI、AWS 的合作案。

與 OpenAI 簽下那份超過 200 億美元、規模高達 750MW 算力的長期合約,再加上 AWS 提供的雲端通路,正是 Cerebras 擺脫單一大客戶依賴,打進美國大型企業市場的最佳解。

畢竟 Cerebras 可是在 NASDAQ 上市,整間公司的收入命脈卻高度集中在中東企業手上,市場能不緊張嗎?

不過,合約歸合約,目前真金白銀養活 Cerebras 的還是中東好兄弟,未來最重要的關鍵在於:它能不能順利把營收重心從中東轉移到美國甚至全球市場。

要在美國科技業站穩腳步,光會做晶片還不夠。還得讀懂政治語言,看懂地緣情勢,並且讓市場相信:這家公司的收入不是只靠集中金主撐起來的,而是真的有能力走向全球市場。

🔥本文章同步發佈於 方格子


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言