今天要說的就是 AI Agent 的核心模組,這邊主要是整理《The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey》的研究做介紹,如果想細讀可以去看這篇論文。
雖然前面已經有說到 Agent 的「特性」,也就是 Agent 該具備的能力面(自主、感知、決策、行動),但今天會更進一步,聚焦在系統設計上必須具備的核心模組,也就是實際驅動 AI Agent 運作的關鍵元件。
根據他們的研究,AI Agent 的組成可以被拆解為四個核心模組:
1. Reasoning(推理)
推理是 Agent 的「思考能力」,能夠幫助它理解問題、做出判斷並解決複雜情境。
如果缺乏推理能力的話,它可能就會變成「只會照字面意思做事的機器人」,可能會誤解問題、答非所問、對於太多步驟的問題他會變得無法處理。
推理能力可以讓 Agent 可以應對複雜環境、處理新情況、在不確定中仍然做出合理決策。
2. Planning(規劃)
「推理」決定要做什麼,「規劃」則是把這些想法落實成清楚的行動步驟。
「行動」與「推理」其實關係很密切,好的規劃可以讓任務有條理地完成,就跟你學習肯定是要有一定的先後順序,而不是這邊讀點那邊讀點,最後都沒有連結上。
這邊歸納了五種常見的規劃方法:
常見例子:
1.任務規劃器(Task Planner / Workflow Engine):像 DAG 流程引擎,自動產生正確步驟順序。
2.路徑規劃演算法:用 A* 或 Dijkstra 這類演算法,確保 LLM 制定的移動路徑是最短可行的。
3. Tool Calling(工具呼叫)
這個模組就像是 Agent 的「手和腳」,讓它能真的去做事,而不是只會在腦子裡想。
像是他可能會呼叫 API、資料庫查詢、檔案讀寫、發郵件、觸發報表、甚至控制機器/流程。
但重點不只「會叫工具」,還包括:何時該使用?要用甚麼工具?參數怎麼填?出錯了該怎麼辦?
而且很多情況下,Agent 不只要用一個工具,而是要能靈活地串起多個工具,可能是有個先後順序(先查資料 → 再做統計 → 再寫報告),也可能是同時並行(多個爬蟲一起工作)。
4. Memory & Reflection(記憶與反思)
這個部分是為了讓 Agent 不用每次都「重新來過」,而是能從經驗裡學到東西,越做越聰明。
總結來說,這四個模組分別負責 思考、規劃、行動、學習。
有了它們的配合,AI Agent 才能真正從「會回答問題」進化到「能主動完成任務」。
今天突然又打了好多字,明天繼續努力,希望後面實作的時候我還撐得下去TT