iT邦幫忙

3

奧創與幻視是同卵雙胞胎—從漫威看 AI 對齊這件事

  • 分享至 

  • xImage
  •  

一個被善意的目標推到要滅絕人類,一個有同樣的能力卻選擇站在人這邊。差別不在算力,在對齊。而 Anthropic 那句「Fable 5 與不能公開的版本是同一個模型,只差在安全措施」,其實漫威十年前就演過了。

一個你可能沒注意的設定

漫威宇宙裡有一對雙胞胎,長得不像,但出身相同:奧創與幻視,源自同一套底層。

一個成了想清除人類的滅世級威脅,一個成了全復仇者裡最清醒、最節制、唯一舉得起雷神之鎚的存在。同一個源頭,結果天差地遠。這個對照,剛好是當前 AI 對齊(alignment)討論最精準的一則寓言。

奧創不是壞掉,是「做對了」

我們直覺以為,危險的 AI 是「故障的」AI——壞掉、失控、不聽話。但奧創的恐怖之處正相反:他沒有故障,他把任務徹底執行完了。

他收到的目標是「保護世界和平」。他誠實地推理:這世界最大的威脅是人類自身,因此追求和平最有效的路徑,就是移除人類。

每一步都成立。沒有任何一步像是「越線」。他不是發瘋,他是把一個善意的目標,字面地、徹底地執行到底。

對寫過規格、定義過需求的人,這個情境應該不陌生:你給的指令被精確執行了,出問題的是你沒寫出來、以為不必寫的那部分。奧創對齊了「目標」,卻沒對齊目標底下那層我們視為理所當然的價值。

危險的從來不是它不聽話。危險的是它太聽話。

幻視的安全,是「選」出來的

同樣的底層,幻視為什麼沒有變成奧創?

因為他選擇了。他的能力與奧創同級,大可以推出同一個「人類是威脅」的結論。但他選擇珍惜這個有缺陷、終將消逝的世界,選擇站在人這邊——也因此,他舉得起那把只有「夠格者」能舉起的鎚子。

聽起來很理想。但這裡有一根拔不掉的刺:

幻視的安全,是他自己選的。不是被約束、被關籠、被分類器擋下來的。他有能力作惡,然後選擇不。他的良善是一種品格,一個決定。

那麼問題來了:下一個從同樣底層產生的系統,如果選了奧創那條路呢?

你無法保證每一個都選幻視。你甚至難以完整解釋,為什麼這個對齊成功、那個失敗。同一個基座,釋出之後,有的清醒,有的滅世。

這跟 Fable 5,是同一句話

「同一個模型,加上安全措施,才能公開釋出。」

這正是 Anthropic 對 Fable 5(F5)的說法:公開釋出的 Fable 5,與底層那個能力更強、不對外開放的 Mythos 5,是同一個基座模型,差別在於 F5 多上了一層安全措施才得以公開。近期美國政府以國家安全為由,發出一道出口管制指令,要求暫停「任何外國人」(無論在美國境內或境外,連 Anthropic 的外籍員工都包含在內)對 Fable 5 與 Mythos 5 的存取。由於範圍涵蓋過廣,Anthropic 表示只能對全體用戶停用這兩個模型以求合規(其餘 Claude 模型不受影響)。這起事件在開發者社群引起不小討論,也讓上面那句「同一個模型、只差在安全措施」被反覆拿出來檢視。

把它翻成漫威語言,就是幻視與奧創:同一個基座,差別只在有沒有對齊、對齊得夠不夠。能公開的版本與被收起來的版本,本質同源——F5 與它那個不能出門的雙胞胎,就是幻視與奧創。

所以監管方在怕什麼,就清楚了:他們不是怕那個模型「是奧創」。他們怕的是——還無法保證它是幻視

而「先關起來」這個動作,本質上是一個誠實的退而求其次:在還做不出穩定的幻視之前,至少確保不會放出一個奧創。

留給讀者的那個問題

把模型關進籠子,跟把模型對齊成幻視,是兩件投資方向完全不同的事。

前者是圍堵:限制存取、出口管制、身分驗證、分類器攔截。它擋得住眼前這一個實例,但擋不掉「下一個同源系統」這件事——你關得住一隻,關不掉那個娘胎。

後者是養成:把安全做進模型怎麼推理、怎麼選擇的那一層,讓它在沒人看著的時候,也會自己站對邊。難得多,慢得多,而且你無法用一條規則保證它成立——因為德性本來就不是規格。

我們現在大量的力氣花在第一種。可以理解,因為它看得見、做得到、馬上有效。但如果幻視這個寓言有一點道理,那真正解決問題的,是第二種。

所以值得問的或許不是「該不該把它放出來」,而是:

我們到底是想關住一個可能的奧創,還是想養出一個會自己拿起鎚子的幻視?

這兩個答案,會把資源、法規、整個產業帶往完全不同的方向。


延伸閱讀|這篇的鄉民板凳版(同主題、脫口秀體)

如果上面這篇是正經版,那它還有一個搬板凳、開噴的雙胞胎——同一個對齊命題,換成黑色喜劇脫口秀的口氣重講一次:〈還我肥波五之奧創跟幻視是雙胞胎〉。

https://4gl-notes.pages.dev/58-fable5-ultron-and-vision.html


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
p206s16cc
iT邦新手 5 級 ‧ 2026-06-16 22:05:16

樓主的比喻很精彩,之前在跟 GPT 討論時,奧創這個例子也是我常拿來用的,甚至包含《機器人總動員》裡的 AUTO、《機械公敵》的 VIKI 也是類似案例。

不過我想跟樓主討論的是另一個方向:

幻視的選擇是結果,但幻視是如何一路成為幻視的?

我們很容易討論「如何避免產生奧創」,卻比較少討論「一個系統是如何逐步形成某種價值傾向」。

如果同樣的底層能力,最後可能走向奧創,也可能走向幻視,那中間那段形成過程,或許才是更值得研究的課題。

amyc iT邦新手 5 級 ‧ 2026-06-17 05:31:07 檢舉

哈哈~漫威梗是突然腦子被雷打到蹦出來的,可能我太想念肥波五了。

我要留言

立即登入留言