Day 22｜AI Agent 核心模組：推理、規劃、工具呼叫與記憶

2025 iThome 鐵人賽

DAY 22

AI & Data

RAG × Agent：從知識檢索到智慧應用的30天挑戰系列第 22 篇

17th鐵人賽 llm ai ai agent agent

otterday

2025-10-06 01:15:19

275 瀏覽

分享至

今天要說的就是 AI Agent 的核心模組，這邊主要是整理《The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey》的研究做介紹，如果想細讀可以去看這篇論文。

雖然前面已經有說到 Agent 的「特性」，也就是 Agent 該具備的能力面（自主、感知、決策、行動），但今天會更進一步，聚焦在系統設計上必須具備的核心模組，也就是實際驅動 AI Agent 運作的關鍵元件。

AI Agent 核心模組

根據他們的研究，AI Agent 的組成可以被拆解為四個核心模組：
1. Reasoning（推理）
推理是 Agent 的「思考能力」，能夠幫助它理解問題、做出判斷並解決複雜情境。
如果缺乏推理能力的話，它可能就會變成「只會照字面意思做事的機器人」，可能會誤解問題、答非所問、對於太多步驟的問題他會變得無法處理。
推理能力可以讓 Agent 可以應對複雜環境、處理新情況、在不確定中仍然做出合理決策。

2. Planning（規劃）
「推理」決定要做什麼，「規劃」則是把這些想法落實成清楚的行動步驟。
「行動」與「推理」其實關係很密切，好的規劃可以讓任務有條理地完成，就跟你學習肯定是要有一定的先後順序，而不是這邊讀點那邊讀點，最後都沒有連結上。
這邊歸納了五種常見的規劃方法：

任務分解（Task Decomposition）：把大任務拆成小步驟，逐步完成。
多計畫選擇（Multi-Plan Selection）：這讓 LLM 先想出多種解法，再透過演算法選出最穩、最省或最短的路徑。
外部模組輔助規劃（External Module-Aided）：LLM 不需要單打獨鬥，可以把任務轉換成形式化描述，交給外部模組處理。

常見例子：
1.任務規劃器（Task Planner / Workflow Engine）：像 DAG 流程引擎，自動產生正確步驟順序。
2.路徑規劃演算法：用 A* 或 Dijkstra 這類演算法，確保 LLM 制定的移動路徑是最短可行的。

反思與改進（Reflection & Refinement）：邊做邊檢討，必要時修正，讓計畫越來越精準。
記憶增強規劃（Memory-Augmented）：善用短期或長期記憶、過去案例，幫助下次規劃更有效率。

3. Tool Calling（工具呼叫）
這個模組就像是 Agent 的「手和腳」，讓它能真的去做事，而不是只會在腦子裡想。
像是他可能會呼叫 API、資料庫查詢、檔案讀寫、發郵件、觸發報表、甚至控制機器/流程。
但重點不只「會叫工具」，還包括：何時該使用？要用甚麼工具？參數怎麼填？出錯了該怎麼辦？
而且很多情況下，Agent 不只要用一個工具，而是要能靈活地串起多個工具，可能是有個先後順序（先查資料 → 再做統計 → 再寫報告），也可能是同時並行（多個爬蟲一起工作）。

4. Memory & Reflection（記憶與反思）
這個部分是為了讓 Agent 不用每次都「重新來過」，而是能從經驗裡學到東西，越做越聰明。