算力的盡頭是物理：從 Cerebras 與 NVIDIA 的架構分歧，看 AI 晶片的演進哲學

科技 gpu ai 晶片

WM 2026-05-19 21:48:16 ‧ 349 瀏覽

分享至

Source：cerebras.ai

AI 晶片設計公司 Cerebras Systems（CBRS）於美東時間 5 月 14 日在 Nasdaq 掛牌上市，首日以每股 350 美元開盤。次日（15 日）收盤價為 279.72 美元，市值約 600 億美元。

這場 IPO 之所以受到關注，是因為 AI 市場正在尋找 NVIDIA 之外的第二種方案。

過去兩年，NVIDIA 高階 GPU 幾乎統治了 AI 算力。但價格昂貴、供貨吃緊，也讓雲端巨頭與 AI 公司開始研發自己的晶片，以擺脫對 NVIDIA 的依賴。

不過，今天我們不細談 IPO 與財報數字。我想從另一個角度分析：為什麼市場會把 Cerebras 視為「NVIDIA 的潛在競爭者」？

》顛覆常理的 WSE 架構：為消滅「資料搬運」而生的巨獸

市場對於 Cerebras 如此寄予厚望，關鍵就在它最顛覆性的技術：Wafer-Scale Engine，WSE，傳統晶片廠商（包括 NVIDIA）會把一整片晶圓切割成數十到數百顆小晶片，但 Cerebras 直接把整片晶圓當成一顆晶片使用。

Cerebras 為什麼要這樣做？是為了解決傳統 GPU 架構的根本問題。

一般 AI 運算，尤其是大型語言模型（LLM），不可能只靠一顆 GPU 完成。系統通常要將數百顆、甚至數千顆 GPU 做串聯運算。

節點內靠 NVLink 互連，跨節點則靠 InfiniBand 或高速乙太網路，將所有的 GPU 串在一起。

運算的資料在晶片與晶片之間不斷搬移。這種「資料搬運」產生的延遲，正是 AI 推論速度的最大瓶頸，尤其對於大型語言模型（LLM）而言，token 生成速度高度受制於記憶體頻寬，而非純算力。

資料傳輸目前遭遇兩個核心問題：

記憶體頻寬瓶頸
LLM 推論時，運算核心需要不斷地從記憶體讀取模型參數，等待資料的時間遠多於實際運算的時間。

晶片間通訊延遲
當模型大到需要跨多顆 GPU 時，資料不只在晶片與記憶體之間搬移，還要跨晶片傳輸，跨節點時延遲更為嚴重。

》NVIDIA 如何解決？

第一個問題，記憶體頻寬瓶頸
採用 HBM（High Bandwidth Memory，高頻寬記憶體），將記憶體透過先進封裝技術（CoWoS）直接堆疊在 GPU 晶片旁，大幅縮短資料傳輸的物理距離。

第二個問題，晶片間通訊延遲
NVIDIA 建立一套「由內到外」的兩層架構，以對應不同規模的傳輸需求：

第一層：機櫃內（NVLink + NVSwitch）
NVLink 是 NVIDIA 的高速晶片間互連技術，最新第六代（Rubin 平台）單顆 GPU 雙向頻寬達 3.6 TB/s，比 PCIe Gen6 高出 14 倍。簡單比喻：PCIe 是省道，NVLink 是高速公路。

Source：NVIDIA

NVLink 搭配 NVLink Switch 交換器晶片，可在機櫃內實現全對全（All-to-All）全互連，讓 72 顆 GPU 表現得像單一超大 GPU。

Source：NVIDIA

NVLink 是連接 GPU 的高速線路，NVLink Switch 是讓所有這些線路能互通的中央交換器。

第二層：跨機櫃（InfiniBand + Lumentum）
機櫃內最多 72 顆 GPU，但大型 AI 訓練動輒需要數萬顆 GPU 分散在數百個機櫃上。NVIDIA 收購 Mellanox 後，用 InfiniBand 技術把這些機櫃串成一個超大叢集。

機櫃間距離一長就必須改用光纖傳輸，這也是為何 NVIDIA 同時斥資 20 億美元投資 Lumentum、再投 20 億美元投資 Coherent，合計砸 40 億美元綁定兩大光元件廠商確保產能。

Lumentum 擅長裸晶片層的高速雷射光源，Coherent 則提供更完整的光收發器模組，兩者都是電光轉換這條連線的關鍵元件。

但這套解法也有代價
HBM 記憶體每一代頻寬都在提升，但 GPU 的算力提升得更快，記憶體永遠追不上算力，瓶頸只是從嚴重變成「比較不嚴重」，從未真正消失。NVLink 解決了機櫃內的問題，但目前跨機櫃通訊頻寬仍比機櫃內低，機櫃之間的通訊延遲依然存在，規模越大問題越明顯。

》Cerebras 如何解決？

記憶體頻寬瓶頸
直接把 SRAM 做在晶圓上，緊貼著運算核心。運算核心要讀取模型參數，不需要離開晶片去外部記憶體拿資料，每個時脈週期就能存取。

NVIDIA 的做法是「讓記憶體靠近晶片」（HBM），Cerebras 的做法是「讓記憶體就在晶片上」。

晶片間通訊延遲
因為整片晶圓就是一顆晶片，90 萬個核心之間的通訊全在晶片內部完成，大幅減少跨晶片通訊的問題。核心之間透過 Cerebras 自研的 Swarm Fabric 2D 網狀結構互連。

但 WSE 不是萬能的
WSE 透過將數十萬個運算核心與大量 SRAM 片上記憶體整合在同一片晶圓上，大幅縮短資料搬移路徑，明顯緩解上述兩項瓶頸。

但每一片晶圓上只有 44 GB SRAM，遠不足以放下一個完整的大模型。系統仍需搭配稱為「Memory X」的外部 DRAM 單元來儲存完整的模型權重，所以 WSE 只是大幅縮減記憶體瓶頸，而非完全消除。

》顛覆常理的代價：製造『巨無霸晶片』必須翻越的三座大山

技術優勢，不代表商業上一定成功，製造一片整晶圓尺寸的晶片將面臨三大難題：

難題一：良率極限 — 不消滅瑕疵，而是「容忍瑕疵」
晶圓上不可避免地存在微小瑕疵。一般切割成小晶片，有瑕疵的那顆丟掉，其他顆不受影響，良率損失可控。但把整片晶圓當一顆晶片，只要有任何一個區域有瑕疵，整片就可能報廢。

Cerebras 的解法，是從一開始就認定瑕疵一定會存在。

做法是在架構層設計大量備用核心，測試時發現壞掉的核心就自動繞過、用備用的替換，容忍瑕疵而非避免瑕疵。

這套方法極難複製。Cerebras 用將近 10 年磨一劍才做到，這也成為其他同業最難跨越的護城河。

但就算 Cerebras 宣稱已自研容錯架構可繞開瑕疵區塊，大規模量產的穩定性，還需要時間驗證。

難題二：散熱瓶頸 — 挑戰不在夠冷，而在「極致均勻」
整片晶圓的功耗過於集中，Cerebras 為此設計了一套專用的散熱方案—「引擎塊（Engine Block）」。

就是把晶圓夾在供電板（上） 與 微流道水冷板（下） 之間，冷卻水直接貼著晶圓背面流過，以最短距離帶走熱量，加熱後的水在機箱內循環並由底部風扇排熱，整個迴路完全封閉、不需外接設備。

這種設計最難的地方不是「夠冷」，而是要「夠均勻」，若晶圓各區域溫差過大，矽材料熱膨脹不一致會導致裂片。

難題三：供電危機 — 捨棄橫向傳輸，改走「垂直供電」
一個社區如果只有一個總水管進來，再分配到每戶，離水源越遠的住戶水壓就越低。WSE-3 有 90 萬個核心分布在一片巨大晶圓上，如果電流從邊緣送入再橫向傳遞，遠端核心的電壓會比近端低，導致效能不一致甚至燒毀。

Cerebras 的解法是：不走橫向，改走垂直。
供電板直接貼在晶圓正面，電流從上方垂直往下打入每個區塊，就像每戶都有自己的專屬水管從天花板接下來，每個核心取電距離幾乎相同，電壓自然均勻。

穩定供電，還有一個難題：當 AI 工作負載批次切換時，數萬安培電流瞬間歸零，會產生破壞性的電流突波（Current Spike）。

Cerebras 的解法是在控制邏輯中插入「虛擬運算（Dummy Operations）」，在空檔自動填充假計算，讓電流消耗保持平穩，避免突波燒毀電路。

》從應用場景看 AI 晶片：Cerebras WSE-3 與 NVIDIA Rubin 的分工哲學

Cerebras 的旗艦是 WSE-3，NVIDIA 的下一代旗艦則是 Rubin。

今天我們不談硬體規格，直接從「應用場景」切入：究竟什麼樣的需求，該搭配哪一種架構？

WSE-3 和 Rubin 的設計出發點完全不同：

WSE-3 旨在解決「資料搬運」的痛點：它把整個晶圓做成一顆超大晶片，盡量讓模型留在晶片內運算，減少資料來回移動，追求的是低延遲、高效率。

應用場景：
- 語音 AI、即時翻譯
- 聊天機器人、即時對話
- 需逐步推理完成任務的 AI 代理（Agentic AI）
- 每次生成都必須極快、不容許卡頓的應用
Rubin 是追求算力最大化：靠著多晶片生態系統與 CUDA 軟體護城河，把整個系統堆成一座可擴張的 AI 工廠。

應用場景：
- 訓練超大模型
- 同時跑很多不同的 AI 模型
- 大量用戶同時使用
- 原本就高度依賴 NVIDIA 生態系的企業

這兩者其實不是競爭對手，而是各司其職的分工：
WSE-3 適合將「資料搬運」的成本壓到最低；而 Rubin 則適合將「算力規模」推向最大。

》Cerebras 崛起，台灣 AI 供應鏈卻難以共鳴

Cerebras 標誌性的「WSE」系列全線委由台積電代工，從 WSE-2 的 7 奈米到 WSE-3 的 5 奈米，這顆整合 4 兆顆電晶體與 90 萬個 AI 核心的巨型晶片，無疑是目前整合度最高的商用晶圓級晶片之一。隨著 OpenAI 與其簽下逾 200 億美元的長期合約，市場也開始關注，台積電究竟能從這筆大單中受益多少。

資深半導體分析師陸行之的估算比較務實，這張合約換算成 Cerebras 未來幾年要向台積電採購的晶片金額，大概落在 50～70 億美元之間，而且是「未來幾年」攤提，不是明年就會發生的事。

攤開來算：50～70 億美元除以 3 年，每年約 17～23 億美元，占台積電年營收大概 1.4%～1.9%。對照 NVIDIA、Apple、AMD 這些大戶，Cerebras 目前的量級仍難以相提並論。

台灣供應鏈有沒有吃到這波？

答案目前是：沒有太多。

Cerebras 整機的散熱與供電核心，主要來自美國的 Vicor，不是台灣廠商。更有趣的是，Vicor 已經對台達電（Delta Electronics）提起專利侵權訴訟，兩邊在電源模組這塊明顯是競爭關係。

這也是 Cerebras 和 NVIDIA GPU 伺服器生態最大的差異，後者供應鏈裡滿滿都是台灣 ODM、散熱、電源廠，Cerebras 目前幾乎沒有公開揭露的台灣直接供應商。

台積電確實是受益者，但幅度有限，現階段的意義更多是「未來成長的想像空間」，而不是當下能反映在財報上的重大貢獻。至於台灣供應鏈，這波暫時還沒有太多著力點。

》Cerebras 營運結構分析：客戶集中度風險與地緣政治挑戰

Cerebras 現在最大的隱憂，是最大單一客戶佔總營收比太高。

2024 上半年，光是 G42（阿聯酋科技集團）一家就貢獻了 87% 的營收。到了 2025 年，G42 的占比雖然降到 24 %，但另一家大戶 MBZUAI（穆罕默德・本・扎耶德人工智慧大學），則是吃下了 2025 年高達 62% 的營收。

看出端倪了嗎？Cerebras 的主要收入，被中東企業牢牢掐住。

高階 AI 算力的合作本來就不是單純的商業行為，背後直接牽扯到美國出口管制與國家戰略。

再加上中東局勢本就極為不穩，只要美國政府對中東的政策風向一變，這幾張大單隨時都有腰斬的可能。

這也是為什麼，市場會緊盯著 Cerebras 與 OpenAI、AWS 的合作案。

與 OpenAI 簽下那份超過 200 億美元、規模高達 750MW 算力的長期合約，再加上 AWS 提供的雲端通路，正是 Cerebras 擺脫單一大客戶依賴，打進美國大型企業市場的最佳解。

畢竟 Cerebras 可是在 NASDAQ 上市，整間公司的收入命脈卻高度集中在中東企業手上，市場能不緊張嗎？

不過，合約歸合約，目前真金白銀養活 Cerebras 的還是中東好兄弟，未來最重要的關鍵在於：它能不能順利把營收重心從中東轉移到美國甚至全球市場。

要在美國科技業站穩腳步，光會做晶片還不夠。還得讀懂政治語言，看懂地緣情勢，並且讓市場相信：這家公司的收入不是只靠集中金主撐起來的，而是真的有能力走向全球市場。

🔥本文章同步發佈於方格子。

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19836 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙