Day 20: 測試 agent brain

2025 iThome 鐵人賽

DAY 20

生成式 AI

agent-brain: 從 0 開始打造一個 python package系列第 20 篇

17th鐵人賽

aquila_w

2025-10-04 23:11:44

62 瀏覽

分享至

從 995 題中 random 挑了 50 題出來組成 dataset。
這是 ToolHop 的 distribution，在設定一堆東西後跑了一下：

橫軸是解題所需的最少 step（可以看到是多輪的 tool-using task），縱軸則是題數分布。

Total vs FC vs PROMPT

FC = native support for function/tool calling.
Prompt = walk-around for function calling, using model's normal text generation capability.

今天就拿最 naive 的 ReAct 架構來跑跑看吧。
主要比較不同模型、不同呼叫策略（Function Calling vs Prompt ）在各種 step requirement 下的平均表現。

長條圖中有標準差的就代表我實際跑了多次。
可以看到：

gpt5-mini (FC) 在分數最高(也最貴＝＝)，尤其在 4-hop 題目上差距明顯。
gpt4.1-mini (PROMPT) 其實在有些任務上贏過了 FC -> 仔細調整感覺大有可為 (跟 BFCL 的實驗類似)
gpt4.1-mini (FC) 不用調整 prompt，其表現就看似比 PROMPT 好了，題數最多的 4-hop 明顯
gpt4.1 (FC) 意外的跟 4.1 mini 差異不大。

題外話
實驗有點小小的瑕疵
FC 模式中，在 reasoning 這步至少有乖乖的產出 (name:, args:)，但是實際產出來的參數還是有瑕疵 e.g., 出現根本不存在的變數，然後到 action state 時就炸裂了 -> 這時候我會讓他回 reasoning state 重新產一次 -> 有機會修正

但 PROMPT 模式，有時候在 reasoning 這步連 (name:, args:) 都會生壞 -> 我就直接讓他去 answer state 了 -> 直接錯了

不過用 FC 的情況下，tool 參數設定錯誤的情況確實比 PROMPT 還低

但整體來看，FC（native function calling） ，效果應該還是比較好一點 (?)
少了 prompt template 的 parsing overhead，也避免了 model 猜測 tool 格式造成的 hallucination。