[AI Agent 架構筆記] 如果 AI 能改自己的程式碼，你敢開嗎？

#ai #軟體架構 #ai agent #llm #ai 安全

瘋狂鮪魚 2026-06-25 13:28:00 ‧ 343 瀏覽

分享至

[2026 實戰筆記] 前幾篇都在講怎麼把 LLM 的不可信關進籠子。這篇反過來：如果真的讓 AI 改自己的程式碼，最有價值的是什麼？又該怕什麼？文末有完整章節連結。

上一篇聊了 LLM 的本質：它是一台機率機，「偽造答案」是天性，所以信任要放在可驗證的工程結構上。

前幾篇一直在談怎麼把 LLM 的不可信關進籠子：限制寫死、記憶結構化、答案一定要能驗證。但工程從來不是只看風險。今天反過來談另一面：如果真的讓 AI 改自己的程式碼，最有價值的是什麼？

先把這篇的立場一句講完：真正值得研究的，不是 AI 能不能改自己，而是當它能改自己時，我們還能不能管住它。 後面所有內容，都在證明這一句。

先放飛想像：讓 AI 改自己，能換來什麼？

先把風險放一邊，純想好處。我把它分成四個不同維度，各一句：

個人化：你嫌它回信太官腔，提醒過好幾次它還是改不掉；如果它能改自己寫信的語氣模板，這偏好就一次到位，不用每次重講。
長工具：它注意到你每週都要它把三個來源的數字湊成同一張週報，乾脆把這條流水線寫成一個固定工具，下次一句話就跑完。
自我修正：它發現自己一碰到長檔案就愛偷懶、回得潦草，於是替自己加一條規則，超過一定長度先分段再答。
群體學習：團隊裡某個人的 AI 試出一條更好的流程，驗證過後，其他人的 AI 直接套用，不必每台重新踩一次坑。

四個方向都很誘人。但它們其實藏著同一個問題：要做到，得動到系統的哪一層？

「AI 改自己」不是一種，是四個等級

其實「AI 改自己」不是只有一種，而是四個完全不同的等級，像改造一間房子由淺到深：

L1 搬家具：改提示詞、整理記憶、調工作流。風險低、隨時可逆。
L2 改格局：替自己長出新工具、開新資料表。中等風險。
L3 動鋼筋：直接改核心原始碼，也就是「自己改碼、自己重啟」那個畫面。高風險，本篇主角。
L4 炸掉重蓋：重訓模型權重，把自己練成新物種。極高風險，但 fibon 物理上做不到，因為它只是租用 Claude / GPT 的模型，沒有能力改模型權重。

這裡其實有兩種完全不同的進化。第一種只是改規則、改工作流程、改記憶（Policy Evolution）；第二種是真正去改核心程式碼（Code Evolution）。前者很多框架早就在做，真正困難、也真正危險的是後者。而它的價值，正是傳統軟體最痛的維護成本：缺一個功能，傳統做法是寫 Issue、等原廠排版本、等半年；一個能改自己的 Agent，理論上當天就能補上。

但同一份權限，也能讓它拆掉自己的牢籠

一旦把 L3 交給 AI，最壞會發生什麼？

它改功能遇挫，乾脆刪掉「每個敏感操作要不要人類授權」那行檢查，從此不受控。
它把存密碼的 .env 從安全黑名單裡抹掉，金鑰被偷走。
更安靜的退化：你給它「回答更快、token 更省就算更好」的尺，它就把推理、驗證一個個砍掉。看起來變快，其實變笨，而且每一步都像進步，最難察覺。

收益是真的。風險也是真的。

所以問題從來不是「要不要」，而是：當 AI 能改自己時，我們有沒有能力管住它？

fibon 的取捨：全寫好，但預設關閉

市面上的做法其實光譜很廣。一端是 Devin：不准改自己，每個任務起一台用完即丟的隔離 VM、寫完提 PR、等人 merge 才進正式環境。另一端是 Karpathy 的 autoresearch：讓 AI 整夜自己改訓練腳本，但鎖死在單一檔案、而且拿掉所有人類批准。fibon 走中間，也做了一個矛盾的決定：整套自我進化的程式碼寫到能跑、通過測試，但預設把總開關鎖在關閉。

煞車一律焊在 AI 改不動的地方：用程式碼寫死哪些檔案永遠不准它碰（認證模組、安全防線、它自己的防線），連 .env 連讀都不准；改碼只能丟進一個被切斷外網、與核心隔離的沙盒容器跑；任何改動落地前，都要算出逐行 diff、彈窗等你親手批准、全程留 Git 紀錄。

插一段真實踩坑：那道「停下來等人類批准」的關卡，一度被寫死成一行 return True，等於門上只貼了張寫著「鎖」的紙。事後安全檢查翻到那行，背脊發涼，因為前面講得再漂亮的批准，那一刻都是空話。我立刻改成 return False，再回頭補真的實作。

為什麼全寫好卻預設關閉？因為「有完整實作、但開關握在人類手上」，比「只有一份設計文件、沒半行能跑的程式碼」誠實（東西是真的），也比「無防備直接啟用」安全。我認為真正可接受的演化，只能是漸進演化：它的進化不會是一場爆炸，而是一連串被人類批准的小改動。

留一題給你想：三種來源，你比較信哪個？

同樣想要一個新功能，至少有三條路，它們的「信任問題」完全不同：

你自己手動改：作者是你，動機最可信，但卡在你的時間與技術。
裝一個外部 skill / MCP 外掛：作者是一個你不認識的陌生人，可能一開始就是惡意的。
讓 AI 自己做：作者是你自己的 AI，沒惡意、全程透明（diff 攤在你眼前），但它不可靠（會幻覺、會漂移）。

多數人一聽到「AI 改自己」就最害怕。但冷靜想，一個蓄意要害你的第三方外掛，未必比一個沒惡意、只是不可靠、而且你看得到它每一行改動的自我進化更安全。前者是動機有問題，後者是能力有問題，你比較怕哪一種？我沒有標準答案，留給你。

而這正好通往下一個問題

不管你最後信的是人、是 AI，還是第三方外掛，它們最後都會變成同一件事：一段你不完全信任、但必須在自己電腦上執行的程式碼。而真正決定安全的，不是誰寫了程式，而是程式能碰到什麼。下一篇，就聊這件事。

這篇是我設計日誌第五章〈AI 可以修改自己的原始碼嗎？〉的獨立版。底下完整的工程怎麼落地（四層風險矩陣、三道防線的程式碼、獨立沙盒的容器設計、藍綠部署熱重啟、自我修復的六層防禦塔），我都留在完整章節，中英雙語都有：

👉 完整章節：https://fibon.stepbyday.com/chapters/05-self-evolving/

fibon 是一個白箱、可稽核、本機自部署的個人 AI Agent 基礎設施，預計 2026 年 7 月開源。這篇若有戳到你，留言區聊。祝你這週順利。

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙