昨天我們聊到文件切分與向量化,但要讓小幫手真的能「記住」這些向量,就需要一個地方來存放──這就是向量資料庫。
常見的有兩種方式:
pgvector:這是一個 PostgreSQL 的延伸套件,能讓你在資料庫裡直接存向量,並且支援相似度搜尋。好處是它和傳統資料表整合得很好,適合同時要存文字、時間、作者等結構化資料。缺點是速度可能沒有專門的向量引擎快。
FAISS:由 Facebook AI 開發的開源工具,專門處理大規模向量搜尋。它的查詢速度非常快,而且支援 GPU 加速,適合做實驗或需要高效檢索的情境。不過缺點是它比較偏向「純粹做向量」,不太適合處理複雜的資料結構。
簡單理解:
pgvector = 萬用型選手,能同時管資料與向量。
FAISS = 田徑短跑冠軍,專精在快速搜尋相似向量。
如果你只是想在本地快速測試 RAG,小規模專案用 FAISS 就很方便;如果未來要做比較完整的系統(像知識庫管理),那 pgvector 可能更合適。
所以,今天的總結就是:幫 AI 小幫手找一個家,向量才能真正發揮作用。沒有資料庫,就好像小幫手每次都要「重新讀書」,效率很差。