RAG(Retrieval-Augmented Generation)是一種結合檢索與生成的架構,旨在讓大型語言模型(LLM)在回答時依賴外部知識庫以提高準確性。
流程分三階段:
1.檢索器:將使用者問題轉換為向量並在索引中找出相似文件或章節
2.擴充上下文:把檢索到的片段與問題一起組成prompt
3.生成器:由 LLM 根據擴充後的上下文生成回應。主要優點包括減少幻覺、知識可即時更新、便於專業領域應用
RAG的常見挑戰有檢索品質(召回與精準度)、片段切分策略、延遲與成本管理,以及如何處理相互矛盾或過時的資料。實務建議:使用向量索引(如FAISS)、對文件做適當chunking、加入檢索結果來源提示,以及設定驗證機制以追蹤與更新知識來源。
RAG對於客服、法務、醫療與企業內部問答等需要可靠依據的場景特別有用,評估時可採用回答正確率、依據使用率與人工審核回饋優化。