我們都知道LLM會有幻覺現象,RAG的其中一作用就是要避免LLM胡說八道。但你怎麼知道你的RAG真的沒有在胡說八道呢?因此就像所有AI模型一樣,評估指標 是不可或缺的一步。
RAG在回答使用者問題時,同時包含了 檢索(Retrieval) 與 生成(Generation) 兩個功能,因此需要針對兩個面向分別進行測試,確保系統能檢索到相關資訊,並生成正確、可信的答案,下面我們就來仔細了解一下各項指標吧!
檢索階段的目標是找到最相關的文件,並提供給生成模型。常見的指標如下:
在生成階段,LLM 根據檢索內容回覆答案。這部分需要衡量生成結果是否正確、相關且流暢。
Ragas 是一個專門為 RAG 系統設計的開源評估工具。
它能夠基於「問題、生成答案、檢索上下文」來自動化計算多種指標,包括:
使用 Ragas 可以快速建立一個 自動化測試流程,避免完全依賴人工評估,也適合持續追蹤系統效能。
在進行 RAG 系統評估時,除了建立指標外,搭配一套完整的流程來確保結果可靠也是非常重要的。參考一些資料後,整理以下是幾個Best Practices做參考:
建立測試框架
黃金參考資料集 (Golden Reference Dataset)
一次只改變一個變數
合成數據 (Synthetic Data)
根因分析 (Root Cause Analysis)
人為評估 (Human Evaluation)
RAG 系統的評估不能僅依靠單一指標,而是需要同時關注 檢索(Retrieval) 和 生成(Generation) 的整體表現:
除此外,評估不是單次工作,而是持續性的過程。結合自動化測試、人為評估與根因分析,才能確保 RAG 系統有達到 高品質、穩定性與可解釋性。
Optimizing RAG retrieval: Test, tune, succeed
RAG Evaluation
Best Practices in RAG Evaluation: A Comprehensive Guide
Evaluation of Retrieval-Augmented Generation: A Survey