我們已經有了最小版的 RAG 小幫手,但接下來要面對一個現實問題:它的答案到底靠不靠譜? 如果沒有方法去檢查,小幫手就可能講得很流暢,但其實內容錯一半。
常見的評估方式大致有幾種:
人工評估
最直接的方法,就是人去看答案對不對。缺點是很花時間,但優點是能抓到細節。很多團隊一開始都會用這種方式做 基本評估。
自動化指標(列舉幾項常見的)
正確率(Accuracy):答案是不是和標準解答一致。
Recall / Precision:小幫手檢索的資料有沒有抓到重點,會不會抓太多無關的。
MRR(Mean Reciprocal Rank):看相關的資料在搜尋結果裡排第幾,越前面越好。
語意相似度
用 embedding 算出「小幫手回答」和「標準答案」的相似度。這方法比單純字面比對更聰明,因為語意接近也算對。
其實不用想得太複雜,一開始可以先挑一小部分問題,讓小幫手回答,再用人工 + 相似度混合評估。等確定方向後,再慢慢建立自動化 pipeline。
畢竟,讓 AI 講得漂亮很簡單,但要它講得正確,就需要我們幫它「把關」。