昨天介紹了 RAGAs 當中的核心指標了,今天是主要討論跟總結。
其實昨天只提到了最主要的核心部分,不過還有很多可以去仔細翻閱查看,這邊就留給大家學習了,絕對不是怕到時候篇幅不夠我做 AI Agent ><
複習一下:
其實這些指標都是相互有關聯的,高「上下文相關性」通常會帶來更好的「答案真實性」,因為系統能取得更切題的資訊。但是,高「答案真實性」並不一定保證高「答案相關性」。
--舉例來說--
【問題一】
老實回答但不回答問題(F 高、AR 低):照抄檢索到的內容,沒有直接回答問題。
問:「決賽是哪一天?」
答:「比賽地點在中國大陸、本次賽事是第 15 屆……」
→ 都是真的(真實性高),但沒回到日期(相關性低)。
【問題二】
看似在回答問題但實則亂掰(AR 高、F 低):系統為了「答到題」給出很像正解的句子,卻沒有支持這論點的上下文(甚至是錯的)。
問:「他拿過幾次世界冠軍?」
答:上下文寫「5 次」,答案卻說「4 次」。
→ 表面切題(相關性高),但不忠實於檢索內容(真實性低)=幻覺。
所以,實務上要一起看 CR / F / AR;實際要用哪些、權重怎麼配,取決於你的應用情境與需求。
其實我們都著重在於 RAGAs 這個框架,其實還有很多新的評估框架被提出除了 RAGAs 外還有一個也比較廣為人知的是 ARES,如果有機會可能之後會解說跟實作,目前我的計畫是先實作 RAGAs,明天應該會放上實作環節~~~