iT邦幫忙

2025 iThome 鐵人賽

DAY 19
0
AI & Data

RAG × Agent:從知識檢索到智慧應用的30天挑戰系列 第 19

Day 19|RAG 評估指南(2/2):RAG 特定指標(下)

  • 分享至 

  • xImage
  •  

昨天介紹了 RAGAs 當中的核心指標了,今天是主要討論跟總結。
其實昨天只提到了最主要的核心部分,不過還有很多可以去仔細翻閱查看,這邊就留給大家學習了,絕對不是怕到時候篇幅不夠我做 AI Agent ><

複習一下:

  • 上下文相關性(CR)=找對資料了沒?
  • 答案真實性(F)=有沒有亂掰?
  • 答案相關性(AR)=有沒有答到問題點?

其實這些指標都是相互有關聯的,高「上下文相關性」通常會帶來更好的「答案真實性」,因為系統能取得更切題的資訊。但是,高「答案真實性」並不一定保證高「答案相關性」。


--舉例來說--

【問題一】
老實回答但不回答問題(F 高、AR 低):照抄檢索到的內容,沒有直接回答問題。

問:「決賽是哪一天?」
答:「比賽地點在中國大陸、本次賽事是第 15 屆……」
→ 都是真的(真實性高),但沒回到日期(相關性低)。

【問題二】
看似在回答問題但實則亂掰(AR 高、F 低):系統為了「答到題」給出很像正解的句子,卻沒有支持這論點的上下文(甚至是錯的)。

問:「他拿過幾次世界冠軍?」
答:上下文寫「5 次」,答案卻說「4 次」。
→ 表面切題(相關性高),但不忠實於檢索內容(真實性低)=幻覺。

所以,實務上要一起看 CR / F / AR;實際要用哪些、權重怎麼配,取決於你的應用情境與需求。


其實我們都著重在於 RAGAs 這個框架,其實還有很多新的評估框架被提出除了 RAGAs 外還有一個也比較廣為人知的是 ARES,如果有機會可能之後會解說跟實作,目前我的計畫是先實作 RAGAs,明天應該會放上實作環節~~~


上一篇
Day 18|RAG 評估指南(2/2):RAG 特定指標(上)
下一篇
Day 20|實戰 RAGAs:量化檢索與生成的表現
系列文
RAG × Agent:從知識檢索到智慧應用的30天挑戰22
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言