iT邦幫忙

2025 iThome 鐵人賽

DAY 15
0

我們已經有了最小版的 RAG 小幫手,但接下來要面對一個現實問題:它的答案到底靠不靠譜? 如果沒有方法去檢查,小幫手就可能講得很流暢,但其實內容錯一半。

常見的評估方式大致有幾種:

人工評估
最直接的方法,就是人去看答案對不對。缺點是很花時間,但優點是能抓到細節。很多團隊一開始都會用這種方式做 基本評估。

自動化指標(列舉幾項常見的)

正確率(Accuracy):答案是不是和標準解答一致。

Recall / Precision:小幫手檢索的資料有沒有抓到重點,會不會抓太多無關的。

MRR(Mean Reciprocal Rank):看相關的資料在搜尋結果裡排第幾,越前面越好。

語意相似度
用 embedding 算出「小幫手回答」和「標準答案」的相似度。這方法比單純字面比對更聰明,因為語意接近也算對。

其實不用想得太複雜,一開始可以先挑一小部分問題,讓小幫手回答,再用人工 + 相似度混合評估。等確定方向後,再慢慢建立自動化 pipeline。

畢竟,讓 AI 講得漂亮很簡單,但要它講得正確,就需要我們幫它「把關」。


上一篇
查詢 + 生成:完成 RAG 最小雛型
下一篇
提升準確率:結合多模型策略
系列文
「打造專屬小幫手:生成式 AI 的從零到一實戰」18
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言