你的 AI Agent 剛和使用者聊了 30 分鐘,討論了專案需求、分享了偏好、做了決策。然後使用者輸入 /new 開始新對話。
Agent 嘗試將對話整合到長期記憶中。LLM 呼叫失敗了——限速、逾時、或者模型回傳了純文字而不是呼叫工具。
記憶沒了。30 分鐘的上下文,蒸發了。
我們在 LemonClaw 實例上追蹤發現:單一模型的記憶整合失敗率約 15%。
大多數 AI Agent 框架把記憶整合當作一次簡單的 LLM 呼叫。成功了就好,失敗了記憶就丟了。
我們用兩個獨立的回退迴圈解決了這個問題:
使用者傳送 /new
│
▼
consolidate() ─── 業務層回退
│ "模型呼叫了 save_memory 嗎?"
│ No → 嘗試鏈中的下一個模型
│
▼
_chat_with_retry() ─── 傳輸層回退
│ HTTP 錯誤 → 指數退避
│ 所有重試耗盡 → 遍歷回退鏈
│
▼
MODEL_MAP 回退鏈:
llama-3.3-70b → qwen3-32b → llama-4-scout → gpt-4.1-mini → claude-haiku
(394 TPS) (662 TPS) (594 TPS) (可靠) (最後手段)
層 1 處理傳輸故障。層 2 處理業務邏輯故障。
記憶整合是背景任務,使用者看不到輸出。
| 模型 | 速度 | 輸入成本 |
|---|---|---|
| llama-3.3-70b | 394 TPS | $0.59/M |
| qwen3-32b | 662 TPS | $0.29/M |
| llama-4-scout | 594 TPS | $0.11/M |
每次整合成本從 ~$0.003 降到 ~$0.001。主模型成功率約 85%。總失敗率:實質為零。
LemonClaw 開源 AI Agent 框架:github.com/hedging8563/lemonclaw
300+ AI 模型一個 API Key:lemondata.cc