Hi大家好,
這是我參加 iT 邦幫忙鐵人賽的第 1 次挑戰,這次的主題聚焦在結合 Python 爬蟲、RAG(檢索增強生成)與 AI,打造一套 PTT 文章智慧問答系統。在過程中,我會依照每天進度上傳程式碼到 GitHub ,方便大家參考學習。也歡迎留言或來信討論,我的信箱是 gerryearth@gmail.com。
昨天我們介紹了 Embedding 模型比較,並決定使用 Google gemini-embedding-001 作為我們的主要模型。今天的主題比較實務:如何降低向量資料庫的使用成本?
隨著系統資料量增加,向量資料庫的儲存與檢索成本會快速上升,如果沒有最佳化策略,費用可能遠超預算。本文將分享幾個常見的成本壓縮手法,並結合實際案例分析。
在檢索增強生成(RAG)應用中,向量資料庫的主要功能是 儲存文本向量(Embeddings) 並提供高效的相似度檢索。
成本上升的原因主要包括:
資料量增加
每個 chunk 會產生一個向量,儲存空間會隨文章數量線性增加。
索引與檢索運算
向量檢索需要高效索引,大量查詢時會耗費計算資源,推升成本。
高維度向量
向量維度越高,占用儲存與運算資源越多。
以 Pinecone 為例,成本通常來自以下幾部分:
因此,成本最佳化的重點在於 減少儲存量 與 降低檢索負荷。
以下是實務中常用的 5 大策略:
問題:切割太細(如 100 tokens),會產生大量向量 → 儲存成本爆炸。
解法:
成本影響:減少向量數量 → 儲存與檢索費用同步下降。
清理無效 chunk,例如:
好處:避免浪費儲存空間在低價值資料上。
針對本專案(PTT 文章問答系統),我的建議策略:
明天 【Day 26】LLM 回答品質優化技巧 - Prompt Engineering 實戰 ,我們將深入探討 如何讓 LLM 產生更精準、有價值的回答,也就是常說的 Prompt Engineering。