為什麼需要談?
RAG 的上限卡在「有沒有把對的段落找出來」。召回錯了,生成再強都白搭。
白話定義
Embedding:把文字壓成可比較距離的向量,語意近就距離短。
索引(Index):像一本高效率目錄,讓你能在大海撈針時快速定位。
常見情境
政策問答、產品 FAQ、跨文件找證據、相似問句歸類、重複內容去重。
常見誤解
「語意搜一定比關鍵字好」→ 專有名詞、代號、法條號其實更適合關鍵字精準匹配。
「距離最短=一定最相關」→ 有時只是語氣像,內容不對題。
「只看向量庫就夠」→ 文件新舊、來源可信度也要納入。
實用心法
三合一檢索:Embedding 語意搜+BM25 關鍵字搜+規則搜(正則/欄位)→ 合併排名。
同義詞表:先列 10 組常見別名(「國中/初中」「教師/老師」)加入檢索規則。
來源加權:對「新版、權威來源、核心章節」加分,對過期或外部論壇降分。
檢核清單
哪些詞/代碼必須「精準比對」而非語意模糊?
Top-5 是否至少命中一段含關鍵數字/定義的「可引用」段落?
排名是否同時考量版本、新鮮度與來源可靠度?
小結
先把「能找到對的東西」這件事做好,才有資格談生成品質。檢索品質=回答上限。