iT邦幫忙

2025 iThome 鐵人賽

DAY 4
1
生成式 AI

agent-brain: 從 0 開始打造一個 python package系列 第 4

Day4: LLM Agent 也能扮演輔助角色 - External Planner

  • 分享至 

  • xImage
  •  

今天來看論文中的接下來的 components

External Planner-Aided Planning

想解決什麼?
昨天提到的 decomposition 與 multi-Plan Selection 都適合用在相對 general 的環境上,例如 summary / planning / coding 等等
但是 如果當今天是一個已經定義好的環境,像是算數學 / 下圍棋 / 機器人走迷宮的任務,我們勢必不需要讓 LLM 直接輸出什麼公式 或者 棋盤位置啦 之類的。因為有可能生成錯誤 (雖然機率很低)。
這種已經 pre-defined 好的環境,可能都有 最佳演算法 or 透過 reinforcement learning 專門訓練一個 model 來解決,甚至都有自己的評分系統,那 LLM 能從中扮演怎樣的角色呢?

這部分論文提出了兩種 planner: Symbolic Planner / Neural Planner

Sybolic Planner

翻譯成中文就是 符號規劃器,這類方法主要依賴 PDDL [1] (其實這東西存在超久 since 1998) 透過符號推理從初始狀態找到通往目標狀態的最優路徑。

介紹一下 PDDL?
在 PDDL 中,會定義兩大東西

  1. Domain:描述這個世界的「規則與動作」。
    • 包含: types(物件型別)、predicates(謂詞/性質)、actions(前置條件 preconditions、效果 effects)。
  2. Problem:描述這個特定任務實例。
    • 包含: objects(這次世界中的具體物件)、init(初始事實)、goal(目標條件)。

https://ithelp.ithome.com.tw/upload/images/20250918/20128319SqDPRi9jjQ.jpg

這是一個 problem 的例子,PDDL 將整個任務流程 (上面是要推 ball 到對應的房間),用特定格式表達,並且產生這種 template 後,可以用 (Fast Downward / VAL) 等求解模型,來解決問題。
但可看到,上面這雖然看起來蠻簡單,但是定義起來卻很繁瑣 -> 剛好請 LLM 來幫忙做這件事情。
做完後套用求解模型直接找到最佳解。讚

Neural Planner

講到 Neural 就是利用到了神經網絡來解決問題啦 像是:強化學習(RL)、模仿學習(IL)或離線資料訓練一個小參數模型(policy/value/Transformer),在特定域內做到又快又準。

但由於是已經特殊訓練過的緣故,其實如果今天執行看到的 observation 與訓練時看到的非常相像,那其實小參數模型就可以表現得超好的。
但其實很多時候,常常會遇到訓練資料沒有涵蓋的情況,像是開車,你訓練的時候可能不會有人把車停在高速公路上,但真實情況發生了。小參數模型可能就不知道該如何反應。

因此,能透過將 LLM 與小參數模型結合以強化規劃能力。(因為 LLM 有更多的 prior knowledge,他可能不知道怎麼轉彎最快,但她知道開車別撞到東西最重要)

論文中有舉例 Decision Transformer (DT), DT 他是完全的 imitation learning,像這種情況底下就很有可能實際在 inference 時,遇到沒看過的場景。
https://ithelp.ithome.com.tw/upload/images/20250918/20128319PzEiBrp3iK.jpg]

後續討論
可以知道 LLM 在這個 component 扮演的比較像是一個輔助的角色。
LLM 在程式碼生成方面的增強,使其能更快地為 Sybolic AI 建立一般化的任務模型。傳統符號式 AI 的主要缺點在於建模複雜且高度依賴人類專家;LLM 可加速此過程,更快更好地建立符號模型。符號系統的優勢在於理論完備性、穩定性、可解釋性。與統計式 AI(神經方法)結合 LLM,預期會成為未來 AI 發展的一大趨勢 (論文說的)。

Takeaway

原來還有這種用 LLM 的方法阿,感覺扮演的角色又不一樣了

剩下的 Reflection and Refinement / memory 感覺都是更獨立且重要的章節,留到明天講

ref:
[1] Planning Domain Definition Language
[2] Decision Transformer: Reinforcement Learning via Sequence Modeling


上一篇
Day3: LLM Agent 中的各種 Decomosition 方式
下一篇
Day5: Agent 你做錯了,反省一下好嗎? - Reflection and Refinement
系列文
agent-brain: 從 0 開始打造一個 python package9
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言