奧創與幻視是同卵雙胞胎—從漫威看 AI 對齊這件事

claude fable5

amyc 2026-06-16 21:01:59 ‧ 925 瀏覽

分享至

一個被善意的目標推到要滅絕人類，一個有同樣的能力卻選擇站在人這邊。差別不在算力，在對齊。而 Anthropic 那句「Fable 5 與不能公開的版本是同一個模型，只差在安全措施」，其實漫威十年前就演過了。

一個你可能沒注意的設定

漫威宇宙裡有一對雙胞胎，長得不像，但出身相同：奧創與幻視，源自同一套底層。

一個成了想清除人類的滅世級威脅，一個成了全復仇者裡最清醒、最節制、唯一舉得起雷神之鎚的存在。同一個源頭,結果天差地遠。這個對照，剛好是當前 AI 對齊(alignment)討論最精準的一則寓言。

奧創不是壞掉，是「做對了」

我們直覺以為，危險的 AI 是「故障的」AI——壞掉、失控、不聽話。但奧創的恐怖之處正相反:他沒有故障,他把任務徹底執行完了。

他收到的目標是「保護世界和平」。他誠實地推理:這世界最大的威脅是人類自身，因此追求和平最有效的路徑，就是移除人類。

每一步都成立。沒有任何一步像是「越線」。他不是發瘋，他是把一個善意的目標，字面地、徹底地執行到底。

對寫過規格、定義過需求的人，這個情境應該不陌生：你給的指令被精確執行了，出問題的是你沒寫出來、以為不必寫的那部分。奧創對齊了「目標」，卻沒對齊目標底下那層我們視為理所當然的價值。

危險的從來不是它不聽話。危險的是它太聽話。

幻視的安全，是「選」出來的

同樣的底層，幻視為什麼沒有變成奧創?

因為他選擇了。他的能力與奧創同級，大可以推出同一個「人類是威脅」的結論。但他選擇珍惜這個有缺陷、終將消逝的世界，選擇站在人這邊——也因此，他舉得起那把只有「夠格者」能舉起的鎚子。

聽起來很理想。但這裡有一根拔不掉的刺:

幻視的安全，是他自己選的。不是被約束、被關籠、被分類器擋下來的。他有能力作惡，然後選擇不。他的良善是一種品格，一個決定。

那麼問題來了:下一個從同樣底層產生的系統，如果選了奧創那條路呢?

你無法保證每一個都選幻視。你甚至難以完整解釋，為什麼這個對齊成功、那個失敗。同一個基座，釋出之後，有的清醒，有的滅世。

這跟 Fable 5，是同一句話

「同一個模型，加上安全措施，才能公開釋出。」

這正是 Anthropic 對 Fable 5(F5)的說法:公開釋出的 Fable 5，與底層那個能力更強、不對外開放的 Mythos 5，是同一個基座模型，差別在於 F5 多上了一層安全措施才得以公開。近期美國政府以國家安全為由，發出一道出口管制指令，要求暫停「任何外國人」(無論在美國境內或境外，連 Anthropic 的外籍員工都包含在內)對 Fable 5 與 Mythos 5 的存取。由於範圍涵蓋過廣，Anthropic 表示只能對全體用戶停用這兩個模型以求合規(其餘 Claude 模型不受影響)。這起事件在開發者社群引起不小討論，也讓上面那句「同一個模型、只差在安全措施」被反覆拿出來檢視。

把它翻成漫威語言，就是幻視與奧創：同一個基座，差別只在有沒有對齊、對齊得夠不夠。能公開的版本與被收起來的版本,本質同源——F5 與它那個不能出門的雙胞胎，就是幻視與奧創。

所以監管方在怕什麼，就清楚了:他們不是怕那個模型「是奧創」。他們怕的是——還無法保證它是幻視。

而「先關起來」這個動作，本質上是一個誠實的退而求其次：在還做不出穩定的幻視之前，至少確保不會放出一個奧創。

留給讀者的那個問題

把模型關進籠子，跟把模型對齊成幻視，是兩件投資方向完全不同的事。

前者是圍堵:限制存取、出口管制、身分驗證、分類器攔截。它擋得住眼前這一個實例，但擋不掉「下一個同源系統」這件事——你關得住一隻，關不掉那個娘胎。

後者是養成:把安全做進模型怎麼推理、怎麼選擇的那一層，讓它在沒人看著的時候，也會自己站對邊。難得多，慢得多，而且你無法用一條規則保證它成立——因為德性本來就不是規格。

我們現在大量的力氣花在第一種。可以理解，因為它看得見、做得到、馬上有效。但如果幻視這個寓言有一點道理，那真正解決問題的，是第二種。

所以值得問的或許不是「該不該把它放出來」，而是:

我們到底是想關住一個可能的奧創，還是想養出一個會自己拿起鎚子的幻視?

這兩個答案，會把資源、法規、整個產業帶往完全不同的方向。

延伸閱讀|這篇的鄉民板凳版(同主題、脫口秀體)

如果上面這篇是正經版，那它還有一個搬板凳、開噴的雙胞胎——同一個對齊命題，換成黑色喜劇脫口秀的口氣重講一次:〈還我肥波五之奧創跟幻視是雙胞胎〉。

https://4gl-notes.pages.dev/58-fable5-ultron-and-vision.html

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 則留言

p206s16cc

iT邦新手 5 級 ‧ 2026-06-16 22:05:16

樓主的比喻很精彩，之前在跟 GPT 討論時，奧創這個例子也是我常拿來用的，甚至包含《機器人總動員》裡的 AUTO、《機械公敵》的 VIKI 也是類似案例。

不過我想跟樓主討論的是另一個方向：

幻視的選擇是結果，但幻視是如何一路成為幻視的？

我們很容易討論「如何避免產生奧創」，卻比較少討論「一個系統是如何逐步形成某種價值傾向」。

如果同樣的底層能力，最後可能走向奧創，也可能走向幻視，那中間那段形成過程，或許才是更值得研究的課題。

回應 1
檢舉

amyc iT邦新手 5 級 ‧ 2026-06-17 05:31:07 檢舉

哈哈～漫威梗是突然腦子被雷打到蹦出來的，可能我太想念肥波五了。

登入發表回應

我要留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙