iT邦幫忙

0

近期 AI 業界的輿論氣氛十分狂熱:英偉達 CEO 黃仁勳高呼 AGI(通用人工智慧)「已經在房間裡了」,各大實驗室也爭相暗示自己離通用智能只差一步。各種 AI Agent 產品滿天飛,彷彿都在對著鏡頭大喊「我已經能顛覆世界」。

然而,就在這個節骨眼上,2026 年 3 月 25 日,在舊金山 Y Combinator 的會場上,一項名為 ARC-AGI-3 的全新智能測試發布,並祭出超過 200 萬美元的獎金。這場比賽的結果,猶如一記響亮的耳光,狠狠扇在了整個 AI 產業的臉上。

這是一份讓人不寒而慄的成績單:

  • 普通人類(未經事前訓練): 100%
  • Google Gemini 3.1 Pro: 0.37%
  • OpenAI GPT-5.4: 0.26%
  • Anthropic Claude Opus 4.6: 0.25%
  • xAI Grok 4.2: 0%
  • StochasticGoose: 12.58%
    (註:StochasticGoose 並非通用大模型,而是預覽競賽階段針對該評測特化開發的動作學習型 Agent。將其列出是為了對比不同底層架構的表現差異。)

花了數千億美元、消耗海量電力訓練出來的全球第一梯隊頂尖通用模型,在一個連小學生都能玩懂的互動遊戲中,幾乎全軍覆沒。這不是發揮失常,而是徹底的底層架構潰敗。這究竟是怎麼回事?

一、 創辦人的核心叩問:什麼才是「真正的智能」?

這項測驗的創辦人是法國 AI 工程師、Keras 框架作者 François Chollet。在 AI 圈瘋狂炒作奇點降臨的今天,他始終是個冷靜的異類。

早在 2019 年,Chollet 就發表了經典論文《智能的度量》(On the Measure of Intelligence),提出了一個逆耳的觀點:真正的智能,不是你已經「記住」了多少知識,而是你在面對前所未見的全新任務時,能「多快學會」你不知道的東西。

當前的大語言模型(LLM)本質上是一台極其昂貴的「知識壓縮機」。它們將人類幾千年積累的結構化知識(文字、代碼、論文)壓縮進參數裡。當你提問時,它是在壓縮包裡尋找最匹配的輸出。這被稱為晶體智力。這也是為什麼 AI 幫你寫代碼、改文章能比你快十倍。

但這違背了強化學習領域的代表性學者、經典教科書作者 Rich Sutton 所說的「苦澀的教訓(The Bitter Lesson)」——不要試圖把人類知識餵給 AI,應該讓它自己從經驗裡學。現在的大模型恰恰走了相反的路,紐約大學助理教授謝賽寧將其稱為「反苦澀的教訓」:把整理好的答案餵給 AI,然後靠算力硬疊。

如果你把一個博覽群書的圖書管理員(LLM)扔進一片完全沒有書的原始森林,讓他自己想辦法活下去,他會立刻斃命。因為他只懂「書裡的答案」,不懂「如何在未知中建立生存法則」。

這就是 Chollet 要測的東西:流體智力(Fluid Intelligence)。

二、 ARC-AGI 的演進史:一場封殺「算力作弊」的貓鼠遊戲

為了剝除 AI 實驗室的算力護城河,Chollet 展開了長達數年的測試演進:

  • 第一代 (ARC-AGI-1, 2019): 形式是靜態的視覺網格拼圖。一開始大模型表現狼狽,但到了 2024 年底,OpenAI 的 o3 模型借助蒙地卡羅樹搜尋與龐大的算力投入,硬是把成績刷到了 87.5%,宣告該測試飽和。

  • 第二代 (ARC-AGI-2, 2025): 題目難度明顯提升,大家以為能撐久一點。結果很快地,就有參賽團隊(如 Poetiq)利用大模型方案將成績推升至 54% 以上,甚至有特定測試被刷得更高。
    Chollet 看破了手腳:只要題目是「靜態」的輸入輸出,頂級實驗室就能用「測試時訓練(Test-Time Training)」加上暴力暴搜來破解。這測的根本不是 AI 有多聰明,而是實驗室的顯卡有多多。

於是,第三代 (ARC-AGI-3) 做出了根本性的改變:捨棄靜態題目,把 AI 扔進 135 個從零構建的互動式遊戲環境。這裡沒有說明書、沒有目標提示,環境會根據你的動作實時變化。這條暴力破解的路,被徹底堵死了。

三、 殘酷的計分機制:如何掐死大模型的「暴力試錯」?

面對新測試,有人或許會質疑:既然人類思考一步需要時間,而 AI 運算速度極快,難道 AI 不能在一秒內盲目嘗試 1000 步,靠速度優勢「矇」出答案嗎?

答案是:完全不行。ARC-AGI-3 設計了堪稱「機車」的極端計分方式,徹底掐死了這條路:

  1. 開平方的效率懲罰(RHAE, 相對人類動作效率):
    這個機制不比時間,只比「步數效率」。如果人類花了 10 步完成,而 AI 盲目試錯花了 100 步,AI 的得分不會是 10%,而是經過平方折算的 (10 / 100)² = 1%。這個公式的用意,就是讓嚴重低效的解法付出不成比例的慘痛代價。

  2. 5 倍步數上限的「強制出局」:
    這是最致命的一擊。官方規則明定,AI 的嘗試步數一旦超過人類完成步數的 5 倍,系統就會判定該關卡直接失敗並強制終止。這也精準解釋了為何 Grok 4.2 會拿下難堪的 0 分——它並非沒有採取動作,而是在每一個測試環境中,都耗盡了 5 倍的步數上限卻始終找不到有效路徑,最終未能在任何環境中達到有效得分。

在這兩道緊箍咒下,缺乏主動建立假設機制的語言模型,只能像無頭蒼蠅般亂撞,自然在嚴苛的步數限制下紛紛暴斃,拿下了不到 1% 的難堪成績。
(註:測驗發布後,雖有團隊為 Claude 加上了客製化的「腳手架」工具鏈取得高分,但 Chollet 一語道破:幫模型拆解任務的依然是人類,這證明的是人類聰明,而非 AI 聰明。)

四、 隨機鵝 (StochasticGoose) 的突圍與啟示

在這場全線潰敗中,名為 StochasticGoose 的系統卻能在預覽賽中拿下 12.58% 的分數。為什麼?
因為它根本不是大語言模型(LLM)。

大語言模型是「被動的觀察者」,習慣接收文字並預測下一個字。而 StochasticGoose 是一個基於卷積神經網路(CNN)的動作學習型智能體(Agent)。它使用強化學習(RL)去主動預測「我做了這個動作,畫面會發生什麼變化?」。

它懂得「觀察空間、採取行動、從回饋中修正」。這證明了:面對未知的動態環境,懂得主動探索的機制,遠比單純堆疊文本算力的語言模型更接近流體智力。

五、 莫拉維克悖論與真實世界的信任考驗

這個看似刁難 AI 的虛擬比賽,其實完美隱喻了真實世界的殘酷。在虛擬遊戲裡,StochasticGoose 走錯 350 步只是幾毫秒的電費;但在真實的物理世界中,這 350 步的試錯代價將是災難性的。

這正是人工智慧領域著名的莫拉維克悖論(Moravec's paradox):對 AI 來說,展現高階邏輯推理(寫程式、分析財報)只需要極少的算力;但要展現人類一歲小孩的感知與運動能力(走路、避障),卻難如登天。

想像以下這幾個真實場景:

  • 登高山挑夫與陪伴機器人: 真實的山徑瞬息萬變。哪顆石頭長青苔會滑?起霧時懸崖在哪?這需要在零點幾秒內綜合地形與重心做出判斷。如果 AI 在山上也需要「試錯 5 次」才能學會平衡,代價就是直接墜谷。

  • 家事機器人: 客廳不是靜態的。地上突然多了一雙襪子,沙發上有隻貓,杯子的材質不同需要不同的抓取力道。不懂隨機應變,機器人只會把家裡弄得一團糟。

  • 居家看護機器人: 面對脆弱且情緒、生理狀態隨時變化的長輩,若機器人缺乏即時感知的流體智力,僅生硬地按照預設腳本出力,極容易造成不當施力而導致患者受傷。

在現實物理世界中,我們沒有 5 倍的步數上限可以浪費,也沒有無限重來的「暫停鍵」。

六、 未來的解藥:空間智能與流體智力的會師

為了讓 AI 走出「文字真空」,技術發展正在經歷三個必然的演進階段:

  1. 第一階段:傳統 LLM(文字接龍)——懂物理學公式,但不知道水會往低處流。

  2. 第二階段:空間智能與世界模型(模擬真實)——如李飛飛教授提倡的空間智能,以及 Sora、Veo 等世界模型。讓 AI 提前理解三維空間、重力與摩擦力等物理規律。

  3. 第三階段:流體智力(應對真實的終極解答)——哲學上有句話說:「地圖不是疆域本身(The map is not the territory)」。世界模型再強大,終究只是對真實世界的「模擬」。當機器人真正踏入高山或家庭,遇到模擬器裡從未見過的突發怪風或鬆動落石時,預設腳本必然崩潰。

在此刻,流體智力才是跨越「模擬」與「現實」的唯一橋樑。它能讓系統在預測失敗的瞬間,迅速從凌亂的新資訊中抓出新規則,立刻調整行動以求生存。

結語

ARC-AGI-3 的成績單,並非為了嘲諷 AI,而是提早為產業敲響的一記警鐘。

這場比賽告訴我們:沒有流體智力的 AI,就不配擁有進入物理世界的通行證。人類之所以能互相信任,是因為我們知道彼此具備在危機與未知中「見機行事」的能力。

在未來,直到 AI 架構能將「世界模型」的常識底蘊與「強化學習」的流體智力完美結合之前,請記住:AI 做不好的地方,正是我們人類的價值所在。
在面對未知、主動探索以及實體世界的適應力上,人類,依然是在這個世界上最無可取代的頂級配置。


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言