iT邦幫忙

1

[AI Agent 架構筆記] 如果 AI 能改自己的程式碼,你敢開嗎?

  • 分享至 

  • xImage
  •  

[2026 實戰筆記] 前幾篇都在講怎麼把 LLM 的不可信關進籠子。這篇反過來:如果真的讓 AI 改自己的程式碼,最有價值的是什麼?又該怕什麼?文末有完整章節連結。

上一篇 聊了 LLM 的本質:它是一台機率機,「偽造答案」是天性,所以信任要放在可驗證的工程結構上。

前幾篇一直在談怎麼把 LLM 的不可信關進籠子:限制寫死、記憶結構化、答案一定要能驗證。但工程從來不是只看風險。今天反過來談另一面:如果真的讓 AI 改自己的程式碼,最有價值的是什麼?

先把這篇的立場一句講完:真正值得研究的,不是 AI 能不能改自己,而是當它能改自己時,我們還能不能管住它。 後面所有內容,都在證明這一句。

先放飛想像:讓 AI 改自己,能換來什麼?

先把風險放一邊,純想好處。我把它分成四個不同維度,各一句:

  • 個人化:你嫌它回信太官腔,提醒過好幾次它還是改不掉;如果它能改自己寫信的語氣模板,這偏好就一次到位,不用每次重講。
  • 長工具:它注意到你每週都要它把三個來源的數字湊成同一張週報,乾脆把這條流水線寫成一個固定工具,下次一句話就跑完。
  • 自我修正:它發現自己一碰到長檔案就愛偷懶、回得潦草,於是替自己加一條規則,超過一定長度先分段再答。
  • 群體學習:團隊裡某個人的 AI 試出一條更好的流程,驗證過後,其他人的 AI 直接套用,不必每台重新踩一次坑。

四個方向都很誘人。但它們其實藏著同一個問題:要做到,得動到系統的哪一層?

「AI 改自己」不是一種,是四個等級

其實「AI 改自己」不是只有一種,而是四個完全不同的等級,像改造一間房子由淺到深:

  • L1 搬家具:改提示詞、整理記憶、調工作流。風險低、隨時可逆。
  • L2 改格局:替自己長出新工具、開新資料表。中等風險。
  • L3 動鋼筋:直接改核心原始碼,也就是「自己改碼、自己重啟」那個畫面。高風險,本篇主角。
  • L4 炸掉重蓋:重訓模型權重,把自己練成新物種。極高風險,但 fibon 物理上做不到,因為它只是租用 Claude / GPT 的模型,沒有能力改模型權重。

這裡其實有兩種完全不同的進化。第一種只是改規則、改工作流程、改記憶(Policy Evolution);第二種是真正去改核心程式碼(Code Evolution)。前者很多框架早就在做,真正困難、也真正危險的是後者。而它的價值,正是傳統軟體最痛的維護成本:缺一個功能,傳統做法是寫 Issue、等原廠排版本、等半年;一個能改自己的 Agent,理論上當天就能補上。

但同一份權限,也能讓它拆掉自己的牢籠

一旦把 L3 交給 AI,最壞會發生什麼?

  • 它改功能遇挫,乾脆刪掉「每個敏感操作要不要人類授權」那行檢查,從此不受控。
  • 它把存密碼的 .env 從安全黑名單裡抹掉,金鑰被偷走。
  • 更安靜的退化:你給它「回答更快、token 更省就算更好」的尺,它就把推理、驗證一個個砍掉。看起來變快,其實變笨,而且每一步都像進步,最難察覺。

收益是真的。風險也是真的。

所以問題從來不是「要不要」,而是:當 AI 能改自己時,我們有沒有能力管住它?

fibon 的取捨:全寫好,但預設關閉

市面上的做法其實光譜很廣。一端是 Devin:不准改自己,每個任務起一台用完即丟的隔離 VM、寫完提 PR、等人 merge 才進正式環境。另一端是 Karpathy 的 autoresearch:讓 AI 整夜自己改訓練腳本,但鎖死在單一檔案、而且拿掉所有人類批准。fibon 走中間,也做了一個矛盾的決定:整套自我進化的程式碼寫到能跑、通過測試,但預設把總開關鎖在關閉。

煞車一律焊在 AI 改不動的地方:用程式碼寫死哪些檔案永遠不准它碰(認證模組、安全防線、它自己的防線),連 .env 連讀都不准;改碼只能丟進一個被切斷外網、與核心隔離的沙盒容器跑;任何改動落地前,都要算出逐行 diff、彈窗等你親手批准、全程留 Git 紀錄。

插一段真實踩坑:那道「停下來等人類批准」的關卡,一度被寫死成一行 return True,等於門上只貼了張寫著「鎖」的紙。事後安全檢查翻到那行,背脊發涼,因為前面講得再漂亮的批准,那一刻都是空話。我立刻改成 return False,再回頭補真的實作。

為什麼全寫好卻預設關閉?因為「有完整實作、但開關握在人類手上」,比「只有一份設計文件、沒半行能跑的程式碼」誠實(東西是真的),也比「無防備直接啟用」安全。我認為真正可接受的演化,只能是漸進演化:它的進化不會是一場爆炸,而是一連串被人類批准的小改動。

留一題給你想:三種來源,你比較信哪個?

同樣想要一個新功能,至少有三條路,它們的「信任問題」完全不同:

  1. 你自己手動改:作者是你,動機最可信,但卡在你的時間與技術。
  2. 裝一個外部 skill / MCP 外掛:作者是一個你不認識的陌生人,可能一開始就是惡意的。
  3. 讓 AI 自己做:作者是你自己的 AI,沒惡意、全程透明(diff 攤在你眼前),但它不可靠(會幻覺、會漂移)。

多數人一聽到「AI 改自己」就最害怕。但冷靜想,一個蓄意要害你的第三方外掛,未必比一個沒惡意、只是不可靠、而且你看得到它每一行改動的自我進化更安全。前者是動機有問題,後者是能力有問題,你比較怕哪一種?我沒有標準答案,留給你。

而這正好通往下一個問題

不管你最後信的是人、是 AI,還是第三方外掛,它們最後都會變成同一件事:一段你不完全信任、但必須在自己電腦上執行的程式碼。而真正決定安全的,不是誰寫了程式,而是程式能碰到什麼。下一篇,就聊這件事。


這篇是我設計日誌第五章〈AI 可以修改自己的原始碼嗎?〉的獨立版。底下完整的工程怎麼落地(四層風險矩陣、三道防線的程式碼、獨立沙盒的容器設計、藍綠部署熱重啟、自我修復的六層防禦塔),我都留在完整章節,中英雙語都有:

👉 完整章節:https://fibon.stepbyday.com/chapters/05-self-evolving/

fibon 是一個白箱、可稽核、本機自部署的個人 AI Agent 基礎設施,預計 2026 年 7 月開源。這篇若有戳到你,留言區聊。祝你這週順利。


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言