想像一家跨國製造企業,員工每天需要處理四類數據:
supplier_id
和 vendor_id
實際上是同義,但存在不同表格結果:員工花大量時間在找資料、對齊資訊,導致效率低下。
企業設計了一條 端到端數據整合流程,將所有來源轉換成可供 RAG 使用的知識片段。
統一格式,處理缺值、欄位對齊、去重。
切分成語義完整的小片段,方便後續檢索。
使用嵌入模型將片段向量化。
存入向量資料庫(如 Pinecone、FAISS、Milvus)。
RAG 系統在問答時檢索最相關的片段,提供可信答案。
📂 PDF / Word -----> 🛠️ PDF Loader
💾 SQL DB ---------> 🛠️ DB Connector
🌐 API ------------> 🛠️ API Client
📊 CSV ------------> 🛠️ File Loader
│
▼
🧹 Data Cleaning
│
▼
✂️ Chunking
│
▼
🔢 Embedding
│
▼
🗄️ Vector Database
│
▼
💬 RAG 問答系統
如果公司有 PDF + API + DB 三種來源,你會如何設計數據管道?
當資料更新頻繁(例如庫存 API 每小時更新),你會如何讓 RAG 系統保持最新?
如果不同部門用不同資料庫,如何做欄位對齊與數據清洗?
在這階段中,我們已經能夠理解 RAG 的架構與在企業中的用法,大家可以看看是否已學會以下的內容,如果有不熟的可以再回去看看呦! 恭喜大家完成第一階段!
在第一階段中,你已學習到:
在下個階段中,我們會介紹如何優化檢索的策略,就讓我們繼續看下去吧!