AutoGPT 是 2023 年開始廣受矚目的「自動化 AI Agent 框架」。它的核心理念是:讓大語言模型(LLM,例如 GPT-4)不只是回答問題,而是能夠自己規劃、記憶並執行一連串行動。
它的架構主要圍繞三個核心流程:Planning(規劃)、Memory(記憶)、Execution(執行)。
Planning(規劃流程)
在 AutoGPT 中,Planning 是讓 LLM 從「目標(Goal)」出發,自主拆解成一系列「子任務(Sub-tasks)」的過程。這其實是一種 任務分解(Task Decomposition),靠的是大語言模型的推理能力(Chain-of-Thought、ReAct Prompt 等技術)。
具體運作:
使用者給定一個目標,例如:「幫我找一份市場分析報告」。
AutoGPT 的規劃模組會要求 LLM 思考:
我要達成這個目標,需要哪些步驟?
每個步驟要使用哪些工具?
LLM 會輸出一個「行動計畫(Plan)」,例如:
子任務1:搜尋網路上的市場調查資源。
子任務2:整理主要競爭者資料。
子任務3:撰寫一份摘要報告。
Memory(記憶流程)
AutoGPT 的一大突破是「具備長期記憶」。因為傳統的 LLM 有 上下文長度限制(Context Window Limit),超過字數就會忘記,所以 AutoGPT 引入了記憶模組來延伸 AI 的工作能力。
AutoGPT 的記憶分為兩類:
短期記憶(Short-Term Memory):存在當前對話上下文,讓模型知道自己剛才在做什麼。
長期記憶(Long-Term Memory):會把重要資訊存進外部資料庫(常用向量資料庫,如 Pinecone、Weaviate、FAISS),以便後續檢索。
每完成一個任務,AutoGPT 會將過程紀錄(任務描述、工具輸出、模型思考)存成「記憶片段」。
下次要進行新任務時,系統會從資料庫檢索出相關記憶,送回給 LLM,幫助它延續思考脈絡。
Execution(執行流程)
Execution 是 AutoGPT 最關鍵的部分,AutoGPT 的執行模組通常包含以下流程:
選擇工具(Tool Selection)
例如:瀏覽器(搜尋網頁)、Python 執行器(運算)、檔案系統(存檔/讀檔)。
LLM 會判斷當前子任務需要用哪個工具。
執行動作(Action Execution)
系統把 LLM 輸出的「指令」轉換成程式呼叫。
例如:執行 Python 程式碼、發送 API 請求、抓取網頁內容。
回饋檢查(Feedback Loop)
工具會回傳結果給 LLM。
LLM 根據結果判斷是否完成,若沒完成就修正計畫,進入下一輪迭代。