核心概念: 嵌入模型(Embedding Model)決定了「檢索是否找得到正確東西」。在企業級 RAG 中,嵌入模型的選擇會同時影響 檢索精度、延遲與成本,並牽動向量維度、記憶體占用、索引形態與部署合規。
學習內容:
請用下表做第一輪篩選(打勾或 1–5 分制),針對你的業務建立可量化決策:
維度 | 觀察指標 | 說明與備註 |
---|---|---|
精度 | Recall@k / nDCG@k / MRR | 在你的「私有開發集」上量測(含長文本、多段落、專有名詞) |
多語言 | 同語言/跨語言召回 | zh↔en、zh↔ja 等是否互檢、是否需轉寫/同義詞擴展 |
延遲 | 單查詢編碼時間 / QPS | 線上 SLA(P95/P99)、是否可批次化或異步化 |
成本 | Token/向量生成成本、儲存成本 | API 單價 vs 自建硬體;維度越大儲存與檢索越貴 |
部署 | 合規/私有化/離線能力 | 金融/醫療常要求 可自建 與 資料不外流 |
維度 | 向量維度 D | D 高→儲存↑ 檢索↑;可配合量化/IVF-PQ 降成本 |
相似度 | Cosine / Dot / L2 | 與向量庫一致;多模型混用要小心歸一化 |
穩健性 | OOD/冷啟/縮寫/代號 | 規則化前處理 + Hybrid Retrieval 能顯著補強 |
建議在你的資料上做 A/B 小樣本比武:同一批 query + 標注答案,統計上述指標。
不追求「最新名單」,而是讓你知道 該挑哪一類。下面每一欄都可替換成你團隊考慮的候選。
類型 | 代表模型(示例) | 多語言 | 維度(常見範圍) | 強項 | 典型場景 |
---|---|---|---|---|---|
商用 API | OpenAI 系列 | 佳 | 1,500–3,000+ | 穩定、通用性、更新快 | 快速上線、雲端優先 |
開源通用 | E5 / GTE / BGE / MiniLM | 依型號 | 384–1024 | 成本可控、可私有化 | 企業內網/合規場景 |
多語言專長 | multilingual-E5 / paraphrase-multilingual-MiniLM | 強 | 384–768 | 中英日韓等跨語言 | 全球化內容檢索 |
長文本特化 | BGE-M3/長序列變體等 | 佳 | 1,024± | 長段落穩定、跨段落 | 手冊/合約/規範書 |
向量+稀疏 | 稀疏/稠密雙塔(e.g., SPLADE+Bi-encoder) | 視設計 | – | 關鍵詞+語義兼顧 | 法規/代碼/編號查詢 |
維度僅作落點參考:常見分佈在 384–1536–3072。你只需記住:維度越大,儲存與檢索成本越高。
向量儲存估算: Size ≈ N_chunks × D × bytes_per_dim
float32 = 4 bytes
,float16 = 2 bytes
計索引額外開銷:HNSW 需額外圖結構記憶體(常與 N 成正比);IVF-PQ 需訓練碼本但可大幅壓縮。
生成成本:若 embedding 用 API 計價,每次增量索引 與 線上查詢改寫/擴展 都會燒錢。可將離線產生與線上查詢分離以控管成本。
延遲管控:上線 SLA 常看 P95/P99;批次化編碼 與 async pipeline 可顯著降低均攤延遲。
是否必須私有化/不外流?
├─ 是 → 優先開源自建(BGE/E5/GTE 等)+ 量化/蒸餾 + HNSW/IVF-PQ
└─ 否 → 商用 API/雲端優先(上線快),仍保留遷移路徑
是否需要跨語言檢索?
├─ 是 → 多語言模型 + Hybrid 檢索 + 查詢改寫
└─ 否 → 單語最佳模型(延遲與成本更優)
文檔是否長且結構化(法律/手冊/規範)?
├─ 是 → 長文本友好模型 + Parent/Chunking 優化 + Rerank
└─ 否 → 通用模型 + 適中維度即可
SLA 與成本哪個更硬?
├─ SLA 嚴格 → 維度小/吞吐高的模型 + 索引壓縮 + Cache
└─ 成本敏感 → 開源 + 量化(FP16/INT8/IVF-PQ)+ 批次化編碼
若你已經導入 Rerank,在不降精度的前提下,嵌入模型是否可以 降階(更低維/更便宜)?
你的業務是 跨語言 嗎?若是,混合檢索與查詢改寫要怎麼搭配,才能保持低延遲?