實務應用中,RAG(Retrieval-Augmented Generation)系統不只是「模型表現」的問題,而是一整條查詢流程的效能與穩定性問題;再加上Agent成為Agentic RAG後,可想而知的是系統會更加複雜。
那今天如果系統查太慢、回太慢、或答案不穩定,使用者體驗不佳的狀況下,我們要怎麼知道複雜系統是哪個環節出了問題呢?
因此,不論是RAG或是Agentic RAG,建立**監控機制(Observability)**都是讓系統真正落地的關鍵。
RAG 系統是一條多階段的流程:
使用者問題 → 向量化 (Embedding) → 向量檢索 (Retrieval) → 回答生成 (Generation)
可想而知,每一個環節都可能出現延遲、錯誤或品質下降的問題,例如:
要找到這些瓶頸,監控是唯一能提供客觀數據的手段。
在傳統 RAG 中,一次請求通常只會執行「檢索 → 生成」一次。
但在 Agentic RAG 或 MRKL(Modular Reasoning, Knowledge and Language) 框架中,系統可能會多輪推理,每輪都可能再次調用 RAG 模組作為 tool。
舉例來說:
使用者問題 → Agent 分解子任務
├─ Tool 1:檢索 A 主題 → 生成中間結果
├─ Tool 2:再次檢索 B 主題 → 整合資訊
└─ Tool 3:生成最終回答
這意味著每個子步驟都依賴前一步的正確性。
若每一步的準確度僅有 80%,經過 3 次推理後,整體正確率可能只剩下:
0.8 × 0.8 × 0.8 = 0.512(約 51%)
甚至在某些複雜推理場景下,錯誤會疊加放大,導致最終結果偏離真實答案。
因此在 Agentic RAG 中,監控不只是看「延遲」,更要追蹤每次 tool 調用的準確度與成功率。
embedding_latency
search_latency
, hit_ratio
total_rag_latency
, token_count
指標名稱 | 說明 | 重要原因 | 建議閾值 |
---|---|---|---|
embedding_latency |
單次向量生成時間 | 代表模型性能瓶頸 | < 100ms |
search_latency |
向量檢索時間 | 評估 DB 壓力或索引設計 | < 50ms |
llm_latency |
LLM 生成回覆時間 | 通常是最大延遲來源 | < 2s |
total_rag_latency |
使用者請求到回覆的總時間 | 使用者體驗關鍵指標 | < 3s |
throughput |
每秒處理請求數 (QPS) | 系統容量與擴展性 | 依業務需求 |
token_count |
回覆長度(輸入+輸出) | 模型成本與延遲相關 | 監控異常值 |
cache_hit_rate |
快取命中率 | 降低重複計算成本 | > 30% |
指標名稱 | 說明 | 重要原因 | 建議閾值 |
---|---|---|---|
hit_ratio |
成功檢索到相關文件的比率 | 檢索召回能力 | > 90% |
precision@k |
Top-K 結果中相關文件的比例 | 檢索精確度 | > 80% |
recall@k |
Top-K 結果召回所有相關文件的比例 | 檢索完整性 | > 70% |
mrr (Mean Reciprocal Rank) |
第一個相關結果的平均排名倒數 | 排序品質 | > 0.7 |
ndcg@k |
歸一化折損累積增益 | 綜合排序品質 | > 0.8 |
context_relevance |
檢索內容與問題的相關性分數 | 減少噪音干擾 | > 0.7 |
指標名稱 | 說明 | 重要原因 | 建議閾值 |
---|---|---|---|
tool_success_rate |
Agent tool 執行成功率 | 追蹤 Agentic RAG 可靠性 | > 95% |
tool_selection_accuracy |
Tool 選擇正確率 | 反映 Agent 推理能力 | > 85% |
tool_chain_accuracy |
多輪推理鏈整體準確度 | 反映錯誤累積效應 | > 80% |
avg_tool_calls |
平均 tool 調用次數 | 效率與成本指標 | < 5 次 |
reasoning_steps |
推理步驟數量 | 複雜度與可解釋性 | 2-6 步 |
hallucination_rate |
Tool 參數幻覺率 | 防止無效調用 | < 5% |
效能監控能讓系統穩定,但還不夠。
RAG 系統的價值在於「正確回答」,因此品質監控同樣重要:
回答正確率(accuracy):
回答完整性(completeness):
事實一致性(faithfulness/groundedness):
相似度評估(semantic similarity):
回答相關性(answer relevance):
使用者回饋(explicit feedback):
隱式回饋(implicit feedback):
可解釋性(explainability):
Agent tool trace:
推理路徑分析(reasoning path analysis):
錯誤傳播追蹤(error propagation tracking):
今天整理了許多的觀測指標,筆者建議可以依照使用場景的不同去決定要使用哪些指標來監控系統,只要記得這些指標是要幫助你回答三個核心問題:
下一篇我們將介紹:**如何用 Prometheus + Grafana 建立 Agentic RAG 的效能與準確度監控儀表板。