iT邦幫忙

2025 iThome 鐵人賽

DAY 17
0
AI & Data

RAG × Agent:從知識檢索到智慧應用的30天挑戰系列 第 17

Day 17|RAG 評估指南(1/2):檢索指標(下)

  • 分享至 

  • xImage
  •  

今天只負責總結內容噢!
如果需要看更詳細的內容就請回顧下面這兩天的:


指標介紹與優點

指標 介紹 優點
Accuracy 準確率 衡量檢索結果的整體正確性(包含正例與反例) 計算簡單、容易理解
Precision 精確率 評估取回結果的「純度」:取回的結果中有多少是相關的 著重結果品質,容易計算
Precision@k 前 k 筆精確率 評估前 k 筆結果的品質 特別關注使用者最常看的前幾筆結果,對 RAG 很重要
Recall 召回率 衡量系統取回了多少應該要找回的相關文件 能反映檢索完整性,不會漏掉重要資訊
F1-score 精確率 與 召回率 的調和平均數 同時兼顧結果的「純度」與「完整性」
MRR 平均倒數排名 看第一個相關文件出現在第幾名,名次越前面分數越高 強調能快速找到至少一個好結果
MAP 平均平均精確率 綜合考慮多個相關文件的排序與精確率 同時反映排序品質與整體精確度
nDCG 標準化折扣累積增益 排序品質,特別適合相關性分數有等級(0,1,2,3…)的情境 能同時處理「相關性強弱」與「出現順序」

這邊補充,如果要特地計算前 k 筆的評估方式,不是只有精確率才有,也能套用到 Recall、MAP 等其他指標。


指標的使用情境與注意事項

指標 使用情境 注意事項
Accuracy 準確率 適合在資料集平衡、類別比例合理時使用 在不平衡資料中可能誤導,且不考慮排序
Precision 精確率 當希望確保結果正確、不亂推時 忽略了完整性與排序資訊
Precision@k 前 k 筆精確率 適合只取前 k 筆做知識增強(RAG 常見) k 需依系統設計與應用場景決定
Recall 召回率 檢查系統是否遺漏重要資訊 必須事先知道完整的相關文件集合
F1-score 當需要一個綜合指標衡量整體效能時 可能無法知道 精確率 與 召回率 的差異,無法單獨解釋哪邊弱
MRR 平均倒數排名 當只需要「至少一個好答案」就足夠時 若需要多個相關結果,代表性不足
MAP 平均平均精確率 全面檢視多個相關文件的排序與精確率 計算較複雜,結果也不易直覺解釋
nDCG 標準化折扣累積增益 適合文件相關性有不同等級的排序任務 必須對文件進行人工或自動化的相關性評分

稍微整理一下 可能不是很全面,明天換下一個環節。


上一篇
Day 16|RAG 評估指南(1/2):檢索指標(中)
下一篇
Day 18|RAG 評估指南(2/2):RAG 特定指標(上)
系列文
RAG × Agent:從知識檢索到智慧應用的30天挑戰22
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言