AutoGPT 架構介紹

2025 iThome 鐵人賽

DAY 24

自我挑戰組

AI Agentu相關研究系列第 24 篇

17th鐵人賽

S1111132020

2025-08-30 14:00:10

286 瀏覽

分享至

AutoGPT 是 2023 年開始廣受矚目的「自動化 AI Agent 框架」。它的核心理念是：讓大語言模型（LLM，例如 GPT-4）不只是回答問題，而是能夠自己規劃、記憶並執行一連串行動。

它的架構主要圍繞三個核心流程：Planning（規劃）、Memory（記憶）、Execution（執行）。

Planning（規劃流程）
在 AutoGPT 中，Planning 是讓 LLM 從「目標（Goal）」出發，自主拆解成一系列「子任務（Sub-tasks）」的過程。這其實是一種任務分解（Task Decomposition），靠的是大語言模型的推理能力（Chain-of-Thought、ReAct Prompt 等技術）。
具體運作：
使用者給定一個目標，例如：「幫我找一份市場分析報告」。
AutoGPT 的規劃模組會要求 LLM 思考：
我要達成這個目標，需要哪些步驟？
每個步驟要使用哪些工具？
LLM 會輸出一個「行動計畫（Plan）」，例如：
子任務1：搜尋網路上的市場調查資源。
子任務2：整理主要競爭者資料。
子任務3：撰寫一份摘要報告。

Memory（記憶流程）
AutoGPT 的一大突破是「具備長期記憶」。因為傳統的 LLM 有上下文長度限制（Context Window Limit），超過字數就會忘記，所以 AutoGPT 引入了記憶模組來延伸 AI 的工作能力。
AutoGPT 的記憶分為兩類：
短期記憶（Short-Term Memory）：存在當前對話上下文，讓模型知道自己剛才在做什麼。
長期記憶（Long-Term Memory）：會把重要資訊存進外部資料庫（常用向量資料庫，如 Pinecone、Weaviate、FAISS），以便後續檢索。
每完成一個任務，AutoGPT 會將過程紀錄（任務描述、工具輸出、模型思考）存成「記憶片段」。
下次要進行新任務時，系統會從資料庫檢索出相關記憶，送回給 LLM，幫助它延續思考脈絡。

Execution（執行流程）
Execution 是 AutoGPT 最關鍵的部分，AutoGPT 的執行模組通常包含以下流程：
選擇工具（Tool Selection）
例如：瀏覽器（搜尋網頁）、Python 執行器（運算）、檔案系統（存檔/讀檔）。
LLM 會判斷當前子任務需要用哪個工具。
執行動作（Action Execution）
系統把 LLM 輸出的「指令」轉換成程式呼叫。
例如：執行 Python 程式碼、發送 API 請求、抓取網頁內容。
回饋檢查（Feedback Loop）
工具會回傳結果給 LLM。
LLM 根據結果判斷是否完成，若沒完成就修正計畫，進入下一輪迭代。