[2026 實戰筆記]前幾篇都在講怎麼把 LLM 的不可信關進籠子。這篇反過來:如果真的讓 AI 改自己的程式碼,最有價值的是什麼?又該怕什麼?文末有完整章節連結。
上一篇 聊了 LLM 的本質:它是一台機率機,「偽造答案」是天性,所以信任要放在可驗證的工程結構上。
前幾篇一直在談怎麼把 LLM 的不可信關進籠子:限制寫死、記憶結構化、答案一定要能驗證。但工程從來不是只看風險。今天反過來談另一面:如果真的讓 AI 改自己的程式碼,最有價值的是什麼?
先把這篇的立場一句講完:真正值得研究的,不是 AI 能不能改自己,而是當它能改自己時,我們還能不能管住它。 後面所有內容,都在證明這一句。
先把風險放一邊,純想好處。我把它分成四個不同維度,各一句:
四個方向都很誘人。但它們其實藏著同一個問題:要做到,得動到系統的哪一層?
其實「AI 改自己」不是只有一種,而是四個完全不同的等級,像改造一間房子由淺到深:
這裡其實有兩種完全不同的進化。第一種只是改規則、改工作流程、改記憶(Policy Evolution);第二種是真正去改核心程式碼(Code Evolution)。前者很多框架早就在做,真正困難、也真正危險的是後者。而它的價值,正是傳統軟體最痛的維護成本:缺一個功能,傳統做法是寫 Issue、等原廠排版本、等半年;一個能改自己的 Agent,理論上當天就能補上。
一旦把 L3 交給 AI,最壞會發生什麼?
.env 從安全黑名單裡抹掉,金鑰被偷走。收益是真的。風險也是真的。
所以問題從來不是「要不要」,而是:當 AI 能改自己時,我們有沒有能力管住它?
市面上的做法其實光譜很廣。一端是 Devin:不准改自己,每個任務起一台用完即丟的隔離 VM、寫完提 PR、等人 merge 才進正式環境。另一端是 Karpathy 的 autoresearch:讓 AI 整夜自己改訓練腳本,但鎖死在單一檔案、而且拿掉所有人類批准。fibon 走中間,也做了一個矛盾的決定:整套自我進化的程式碼寫到能跑、通過測試,但預設把總開關鎖在關閉。
煞車一律焊在 AI 改不動的地方:用程式碼寫死哪些檔案永遠不准它碰(認證模組、安全防線、它自己的防線),連 .env 連讀都不准;改碼只能丟進一個被切斷外網、與核心隔離的沙盒容器跑;任何改動落地前,都要算出逐行 diff、彈窗等你親手批准、全程留 Git 紀錄。
插一段真實踩坑:那道「停下來等人類批准」的關卡,一度被寫死成一行 return True,等於門上只貼了張寫著「鎖」的紙。事後安全檢查翻到那行,背脊發涼,因為前面講得再漂亮的批准,那一刻都是空話。我立刻改成 return False,再回頭補真的實作。
為什麼全寫好卻預設關閉?因為「有完整實作、但開關握在人類手上」,比「只有一份設計文件、沒半行能跑的程式碼」誠實(東西是真的),也比「無防備直接啟用」安全。我認為真正可接受的演化,只能是漸進演化:它的進化不會是一場爆炸,而是一連串被人類批准的小改動。
同樣想要一個新功能,至少有三條路,它們的「信任問題」完全不同:
多數人一聽到「AI 改自己」就最害怕。但冷靜想,一個蓄意要害你的第三方外掛,未必比一個沒惡意、只是不可靠、而且你看得到它每一行改動的自我進化更安全。前者是動機有問題,後者是能力有問題,你比較怕哪一種?我沒有標準答案,留給你。
不管你最後信的是人、是 AI,還是第三方外掛,它們最後都會變成同一件事:一段你不完全信任、但必須在自己電腦上執行的程式碼。而真正決定安全的,不是誰寫了程式,而是程式能碰到什麼。下一篇,就聊這件事。
這篇是我設計日誌第五章〈AI 可以修改自己的原始碼嗎?〉的獨立版。底下完整的工程怎麼落地(四層風險矩陣、三道防線的程式碼、獨立沙盒的容器設計、藍綠部署熱重啟、自我修復的六層防禦塔),我都留在完整章節,中英雙語都有:
👉 完整章節:https://fibon.stepbyday.com/chapters/05-self-evolving/
fibon 是一個白箱、可稽核、本機自部署的個人 AI Agent 基礎設施,預計 2026 年 7 月開源。這篇若有戳到你,留言區聊。祝你這週順利。