今天只負責總結內容噢!
如果需要看更詳細的內容就請回顧下面這兩天的:
指標 | 介紹 | 優點 |
---|---|---|
Accuracy 準確率 | 衡量檢索結果的整體正確性(包含正例與反例) | 計算簡單、容易理解 |
Precision 精確率 | 評估取回結果的「純度」:取回的結果中有多少是相關的 | 著重結果品質,容易計算 |
Precision@k 前 k 筆精確率 | 評估前 k 筆結果的品質 | 特別關注使用者最常看的前幾筆結果,對 RAG 很重要 |
Recall 召回率 | 衡量系統取回了多少應該要找回的相關文件 | 能反映檢索完整性,不會漏掉重要資訊 |
F1-score | 精確率 與 召回率 的調和平均數 | 同時兼顧結果的「純度」與「完整性」 |
MRR 平均倒數排名 | 看第一個相關文件出現在第幾名,名次越前面分數越高 | 強調能快速找到至少一個好結果 |
MAP 平均平均精確率 | 綜合考慮多個相關文件的排序與精確率 | 同時反映排序品質與整體精確度 |
nDCG 標準化折扣累積增益 | 排序品質,特別適合相關性分數有等級(0,1,2,3…)的情境 | 能同時處理「相關性強弱」與「出現順序」 |
這邊補充,如果要特地計算前 k 筆的評估方式,不是只有精確率才有,也能套用到 Recall、MAP 等其他指標。
指標 | 使用情境 | 注意事項 |
---|---|---|
Accuracy 準確率 | 適合在資料集平衡、類別比例合理時使用 | 在不平衡資料中可能誤導,且不考慮排序 |
Precision 精確率 | 當希望確保結果正確、不亂推時 | 忽略了完整性與排序資訊 |
Precision@k 前 k 筆精確率 | 適合只取前 k 筆做知識增強(RAG 常見) | k 需依系統設計與應用場景決定 |
Recall 召回率 | 檢查系統是否遺漏重要資訊 | 必須事先知道完整的相關文件集合 |
F1-score | 當需要一個綜合指標衡量整體效能時 | 可能無法知道 精確率 與 召回率 的差異,無法單獨解釋哪邊弱 |
MRR 平均倒數排名 | 當只需要「至少一個好答案」就足夠時 | 若需要多個相關結果,代表性不足 |
MAP 平均平均精確率 | 全面檢視多個相關文件的排序與精確率 | 計算較複雜,結果也不易直覺解釋 |
nDCG 標準化折扣累積增益 | 適合文件相關性有不同等級的排序任務 | 必須對文件進行人工或自動化的相關性評分 |
稍微整理一下 可能不是很全面,明天換下一個環節。