突破大模型的算力神話：流體智力、隨機鵝與真實世界的終極考驗

#ai發展 #arcagi #流體智力 #莫拉維克悖論 #大模型 #未來職場 #科技反思 #ai產業分析 #scalinglaw #模型崩潰 #合成資料 #世界模型 #典範轉移 #流體智能 #llm #caffein觀點

caffein 2026-04-09 08:59:31 ‧ 105 瀏覽

分享至

近期 AI 業界的輿論氣氛十分狂熱：英偉達 CEO 黃仁勳高呼 AGI（通用人工智慧）「已經在房間裡了」，各大實驗室也爭相暗示自己離通用智能只差一步。各種 AI Agent 產品滿天飛，彷彿都在對著鏡頭大喊「我已經能顛覆世界」。

然而，就在這個節骨眼上，2026 年 3 月 25 日，在舊金山 Y Combinator 的會場上，一項名為 ARC-AGI-3 的全新智能測試發布，並祭出超過 200 萬美元的獎金。這場比賽的結果，猶如一記響亮的耳光，狠狠扇在了整個 AI 產業的臉上。

這是一份讓人不寒而慄的成績單：

普通人類（未經事前訓練）： 100%
Google Gemini 3.1 Pro： 0.37%
OpenAI GPT-5.4： 0.26%
Anthropic Claude Opus 4.6： 0.25%
xAI Grok 4.2： 0%
StochasticGoose： 12.58%
(註：StochasticGoose 並非通用大模型，而是預覽競賽階段針對該評測特化開發的動作學習型 Agent。將其列出是為了對比不同底層架構的表現差異。)

花了數千億美元、消耗海量電力訓練出來的全球第一梯隊頂尖通用模型，在一個連小學生都能玩懂的互動遊戲中，幾乎全軍覆沒。這不是發揮失常，而是徹底的底層架構潰敗。這究竟是怎麼回事？

一、創辦人的核心叩問：什麼才是「真正的智能」？

這項測驗的創辦人是法國 AI 工程師、Keras 框架作者 François Chollet。在 AI 圈瘋狂炒作奇點降臨的今天，他始終是個冷靜的異類。

早在 2019 年，Chollet 就發表了經典論文《智能的度量》（On the Measure of Intelligence），提出了一個逆耳的觀點：真正的智能，不是你已經「記住」了多少知識，而是你在面對前所未見的全新任務時，能「多快學會」你不知道的東西。

當前的大語言模型（LLM）本質上是一台極其昂貴的「知識壓縮機」。它們將人類幾千年積累的結構化知識（文字、代碼、論文）壓縮進參數裡。當你提問時，它是在壓縮包裡尋找最匹配的輸出。這被稱為晶體智力。這也是為什麼 AI 幫你寫代碼、改文章能比你快十倍。

但這違背了強化學習領域的代表性學者、經典教科書作者 Rich Sutton 所說的「苦澀的教訓（The Bitter Lesson）」——不要試圖把人類知識餵給 AI，應該讓它自己從經驗裡學。現在的大模型恰恰走了相反的路，紐約大學助理教授謝賽寧將其稱為「反苦澀的教訓」：把整理好的答案餵給 AI，然後靠算力硬疊。

如果你把一個博覽群書的圖書管理員（LLM）扔進一片完全沒有書的原始森林，讓他自己想辦法活下去，他會立刻斃命。因為他只懂「書裡的答案」，不懂「如何在未知中建立生存法則」。

這就是 Chollet 要測的東西：流體智力（Fluid Intelligence）。

二、 ARC-AGI 的演進史：一場封殺「算力作弊」的貓鼠遊戲

為了剝除 AI 實驗室的算力護城河，Chollet 展開了長達數年的測試演進：

第一代 (ARC-AGI-1, 2019)：形式是靜態的視覺網格拼圖。一開始大模型表現狼狽，但到了 2024 年底，OpenAI 的 o3 模型借助蒙地卡羅樹搜尋與龐大的算力投入，硬是把成績刷到了 87.5%，宣告該測試飽和。
第二代 (ARC-AGI-2, 2025)：題目難度明顯提升，大家以為能撐久一點。結果很快地，就有參賽團隊（如 Poetiq）利用大模型方案將成績推升至 54% 以上，甚至有特定測試被刷得更高。
Chollet 看破了手腳：只要題目是「靜態」的輸入輸出，頂級實驗室就能用「測試時訓練（Test-Time Training）」加上暴力暴搜來破解。這測的根本不是 AI 有多聰明，而是實驗室的顯卡有多多。

於是，第三代 (ARC-AGI-3) 做出了根本性的改變：捨棄靜態題目，把 AI 扔進 135 個從零構建的互動式遊戲環境。這裡沒有說明書、沒有目標提示，環境會根據你的動作實時變化。這條暴力破解的路，被徹底堵死了。

三、殘酷的計分機制：如何掐死大模型的「暴力試錯」？

面對新測試，有人或許會質疑：既然人類思考一步需要時間，而 AI 運算速度極快，難道 AI 不能在一秒內盲目嘗試 1000 步，靠速度優勢「矇」出答案嗎？

答案是：完全不行。ARC-AGI-3 設計了堪稱「機車」的極端計分方式，徹底掐死了這條路：

開平方的效率懲罰（RHAE, 相對人類動作效率）：
這個機制不比時間，只比「步數效率」。如果人類花了 10 步完成，而 AI 盲目試錯花了 100 步，AI 的得分不會是 10%，而是經過平方折算的 (10 / 100)² = 1%。這個公式的用意，就是讓嚴重低效的解法付出不成比例的慘痛代價。
5 倍步數上限的「強制出局」：
這是最致命的一擊。官方規則明定，AI 的嘗試步數一旦超過人類完成步數的 5 倍，系統就會判定該關卡直接失敗並強制終止。這也精準解釋了為何 Grok 4.2 會拿下難堪的 0 分——它並非沒有採取動作，而是在每一個測試環境中，都耗盡了 5 倍的步數上限卻始終找不到有效路徑，最終未能在任何環境中達到有效得分。

在這兩道緊箍咒下，缺乏主動建立假設機制的語言模型，只能像無頭蒼蠅般亂撞，自然在嚴苛的步數限制下紛紛暴斃，拿下了不到 1% 的難堪成績。
（註：測驗發布後，雖有團隊為 Claude 加上了客製化的「腳手架」工具鏈取得高分，但 Chollet 一語道破：幫模型拆解任務的依然是人類，這證明的是人類聰明，而非 AI 聰明。）

四、隨機鵝 (StochasticGoose) 的突圍與啟示

在這場全線潰敗中，名為 StochasticGoose 的系統卻能在預覽賽中拿下 12.58% 的分數。為什麼？
因為它根本不是大語言模型（LLM）。

大語言模型是「被動的觀察者」，習慣接收文字並預測下一個字。而 StochasticGoose 是一個基於卷積神經網路（CNN）的動作學習型智能體（Agent）。它使用強化學習（RL）去主動預測「我做了這個動作，畫面會發生什麼變化？」。

它懂得「觀察空間、採取行動、從回饋中修正」。這證明了：面對未知的動態環境，懂得主動探索的機制，遠比單純堆疊文本算力的語言模型更接近流體智力。

五、莫拉維克悖論與真實世界的信任考驗

這個看似刁難 AI 的虛擬比賽，其實完美隱喻了真實世界的殘酷。在虛擬遊戲裡，StochasticGoose 走錯 350 步只是幾毫秒的電費；但在真實的物理世界中，這 350 步的試錯代價將是災難性的。

這正是人工智慧領域著名的莫拉維克悖論（Moravec's paradox）：對 AI 來說，展現高階邏輯推理（寫程式、分析財報）只需要極少的算力；但要展現人類一歲小孩的感知與運動能力（走路、避障），卻難如登天。

想像以下這幾個真實場景：

登高山挑夫與陪伴機器人：真實的山徑瞬息萬變。哪顆石頭長青苔會滑？起霧時懸崖在哪？這需要在零點幾秒內綜合地形與重心做出判斷。如果 AI 在山上也需要「試錯 5 次」才能學會平衡，代價就是直接墜谷。
家事機器人：客廳不是靜態的。地上突然多了一雙襪子，沙發上有隻貓，杯子的材質不同需要不同的抓取力道。不懂隨機應變，機器人只會把家裡弄得一團糟。
居家看護機器人：面對脆弱且情緒、生理狀態隨時變化的長輩，若機器人缺乏即時感知的流體智力，僅生硬地按照預設腳本出力，極容易造成不當施力而導致患者受傷。

在現實物理世界中，我們沒有 5 倍的步數上限可以浪費，也沒有無限重來的「暫停鍵」。

六、未來的解藥：空間智能與流體智力的會師

為了讓 AI 走出「文字真空」，技術發展正在經歷三個必然的演進階段：

第一階段：傳統 LLM（文字接龍）——懂物理學公式，但不知道水會往低處流。
第二階段：空間智能與世界模型（模擬真實）——如李飛飛教授提倡的空間智能，以及 Sora、Veo 等世界模型。讓 AI 提前理解三維空間、重力與摩擦力等物理規律。
第三階段：流體智力（應對真實的終極解答）——哲學上有句話說：「地圖不是疆域本身（The map is not the territory）」。世界模型再強大，終究只是對真實世界的「模擬」。當機器人真正踏入高山或家庭，遇到模擬器裡從未見過的突發怪風或鬆動落石時，預設腳本必然崩潰。

在此刻，流體智力才是跨越「模擬」與「現實」的唯一橋樑。它能讓系統在預測失敗的瞬間，迅速從凌亂的新資訊中抓出新規則，立刻調整行動以求生存。

結語

ARC-AGI-3 的成績單，並非為了嘲諷 AI，而是提早為產業敲響的一記警鐘。

這場比賽告訴我們：沒有流體智力的 AI，就不配擁有進入物理世界的通行證。人類之所以能互相信任，是因為我們知道彼此具備在危機與未知中「見機行事」的能力。

在未來，直到 AI 架構能將「世界模型」的常識底蘊與「強化學習」的流體智力完美結合之前，請記住：AI 做不好的地方，正是我們人類的價值所在。
在面對未知、主動探索以及實體世界的適應力上，人類，依然是在這個世界上最無可取代的頂級配置。