Day 14｜RAG 評估方法概要：量化效能，避免幻覺

2025 iThome 鐵人賽

DAY 14

AI & Data

RAG × Agent：從知識檢索到智慧應用的30天挑戰系列第 14 篇

17th鐵人賽 rag llm poc

otterday

2025-09-28 14:15:59

192 瀏覽

分享至

這次要講的內容是 如何去評估 RAG 的效能。我們使用 RAG 的最大原因，就是希望能避免 LLM 產生幻覺，但問題是：即使結合了檢索，我們仍然不能百分之百保證輸出的答案一定正確、符合需求。

因此，我們需要一個方法，能夠量化 RAG 的表現標準，而不是僅憑直覺判斷。

在實務中，通常會先建立一個 PoC（概念驗證）RAG pipeline，並透過各種評估指標來檢查它的效能，確認檢索與生成兩個流程是否運作正常，並且能在持續優化的過程中逐步改善。

概念驗證（英語：Proof of concept，簡稱POC）是對某些想法的一個較短而不完整的實現，以證明其可行性，示範其原理，其目的是為了驗證一些概念或理論。

剛剛說的都有點籠統，其實白話來說我們的目標應該是先建立一個「最小可行版本」的 RAG 系統，用來快速驗證這種方法是否可行，而不是一開始就打造完整、龐大的系統。

為什麼還需要評估？

正因為 RAG pipeline 其實還是有可能會有幻覺的產生，所以我們還是要去思考原因會是甚麼，像是檢索器未能檢索到完整的上下文或檢索到不相關的內容、可能給了相關的資訊但 LLM 還是沒有參閱、或者是它挑了當中比較不相關的答案來回答。

所以，我們在評估的時候，要同時針對檢索和生成這兩個步驟做檢查。例如：

檢索到的內容是否有相關？
生成的內容跟我問的問題相關嗎？
生成的結果是不是有些不重要的訊息被提及？
當然不只是這樣而已，其實很多部分都是需要去考量的。

品質評分

所以針對上述的部分，現在常用三個面向來衡量檢索與生成的品質。

Context relevance（上下文相關性）
檢索到的內容是否和查詢有關，通常用 precision / recall 來算。
Answer faithfulness（答案真實性 / groundedness）
生成的答案是否真的有根據檢索到的內容。
Answer relevance（答案相關性）
生成的答案是否真的解答了使用者的原始問題。
這三個面向，基本上能涵蓋 RAG 最核心的評估需求。

評估指標的分類

整體來說，RAG 的效能衡量可以分成兩大類：

檢索指標（Retrieval metrics） —— 傳統資訊檢索常用的方法，例如 precision、recall。
RAG 特定指標（RAG-specific metrics） —— 專門針對 RAG 設計的評估方式，例如 faithfulness、context relevance。

自然語言生成常用的 BLEU、ROUGE、METEOR 也能應用於 RAG，但需要額外針對「檢索 + 生成」的特性設計專屬指標。

我們後續會針對這兩種效益衡量方式做更進一步的說明。

Day 13｜實戰 Generation Pipeline：Chroma 檢索 × Ollama 生成的完整流程

Day 15｜RAG 評估指南（1/2）：檢索指標（上）

系列文

RAG × Agent：從知識檢索到智慧應用的30天挑戰共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19862 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

RAG × Agent：從知識檢索到智慧應用的30天挑戰系列 第 14 篇