iT邦幫忙

2025 iThome 鐵人賽

DAY 18
0
AI & Data

RAG × Agent:從知識檢索到智慧應用的30天挑戰系列 第 18

Day 18|RAG 評估指南(2/2):RAG 特定指標(上)

  • 分享至 

  • xImage
  •  

前面有介紹過一些傳統的指標像是精確率、召回率那些,不過那些指標都不能完整的反應 RAG 的效能,因為 RAG 的系統同時會牽涉到「檢索」與「生成」兩個部分,所以我們需要更具針對性的評估方式。
所以有專家學者就提出了 RAGAs(Retrieval-Augmented Generation Assessment) 框架,用來專門量化 RAG 系統的品質。其中也定義了三個核心的 RAG 特定品質指標:

  1. 上下文相關性(Context Relevance):檢索到的資訊是否與查詢相關?
  2. 答案真實性(Answer Faithfulness):生成的答案是否忠實於檢索資訊,避免幻覺?
  3. 答案相關性(Answer Relevance):生成的答案是否切題並完整回答了查詢?

這三個指標不僅是 RAGAs 的基礎,也能幫助我們更全面地評估 RAG 系統的表現,並在優化系統時提供具體的改善方向。接下來就讓我們來逐一介紹吧!


1. 上下文相關性(context relevance)

上下文相關性主要是用來評估檢索到的文件,跟你查詢的問題的關聯程度,之前就有說過,你檢索到的內容就是為了降低 LLM 的回答產生幻覺的機率,才需要檢索相關資訊補足它資訊不足的問題。
它會有幾個重點:主題一致性(檢索內容是否真的圍繞在查詢問題上)、資訊有用性(檢索內容裡是否包含能幫助回答問題的訊息)、冗餘度(檢索內容是否有太多不相關或多餘的句子)。
公式:
https://ithelp.ithome.com.tw/upload/images/20250930/20178897x3WVGOgTvn.png
來源:Ragas: Automated Evaluation of Retrieval Augmented Generation

這邊解釋一下他的公式

  • q = 你的問題(query)。
  • c(q) = 根據問題 𝑞,系統檢索回來的一段或多段「上下文內容」。

也就是說,c(q) 就是 AI 為了回答問題 q,所找到的相關文件片段集合。這個公式要算的就是在它檢索到的內容當中,真的有助於回答問題的比例

2. 答案真實性(answer faithfulness)

在檢索完相關資訊後,我們要看一下 LLM 有沒有在胡言亂語,會不會產出其實是跟檢索到的內容相互矛盾的。

這邊用公式來解釋它的做法,公式:af公式

  • S:從答案中抽取的所有陳述(statements),也就是把答案裡的句子拆成一條一條「主張」。
  • |S|:陳述的總數,也就是答案裡一共有多少條主張。
  • V:在檢索到的上下文 ,c(q) 裡,能夠被確認支持的那些主張。
  • |V|:被支持的主張數量。

重點就是:答案中的每條「主張」是否 能由檢索到的上下文 c(q) 推導出來(可被支持)。

補充一下,若上下文本身有誤,答案仍可能在此指標拿高分;因此通常需要搭配 Answer relevance(是否答到題)與 Coverage(是否涵蓋該說的重點)一起看。

關於公式這邊可能需要解釋一下,假設我們的提問是:「LOL 的 Faker 是誰?他奪得世界冠軍幾次了?」,而 AI 產出的回應是:「Faker 本名李相赫是韓國職業電競選手總共贏得 5 次世界冠軍。」
每一段斜體都代表著一條一條主張(S),所以他的 |S| = 3,|V| 就是代表這些主張是否有在檢索的上下文中出現,希望這樣有比較好理解。

3. 答案相關性(answer relevance)

其實這邊的概念跟上下文相關性很像,只不過上下文相關性是上下文跟查詢,而答案相關性則是衡量產生出來的答案跟查詢的相關程度,重點要關注:

  • 是否能理解查詢
  • 回應是否切合主題
  • 回應的完整性

這邊一樣用公式來解釋它的做法,公式:AR 公式

  1. 針對初始查詢 q 產生一個回應。
  2. 再讓 LLM 基於這個回應生成數個問題 qi。
  3. 計算這些生成問題與原始查詢之間的平均餘弦相似度。

其實就是用答案產生的回應去反推原始問題,照道理來說應該是要差不多的。

今天先簡單介紹一下,明天來總結一下。


上一篇
Day 17|RAG 評估指南(1/2):檢索指標(下)
下一篇
Day 19|RAG 評估指南(2/2):RAG 特定指標(下)
系列文
RAG × Agent:從知識檢索到智慧應用的30天挑戰22
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言