Day 10｜(現在篇) 打造專屬的企業知識庫 × LangChain × Embedding

2025 iThome 鐵人賽

DAY 10

生成式 AI

生成式AI的風起雲湧 - 從教育到企業落地應用 (過去‧現在‧未來)系列第 10 篇

17th鐵人賽

adamlivia

2025-09-24 23:14:20

78 瀏覽

分享至

前言：企業為什麼需要自己的 AI 知識庫？

在資訊爆炸的時代，企業每天都在產生各式各樣的知識：從 SOP 文件、產品手冊、內部簡報、會議紀錄到專利資料、工廠流程記錄等。這些知識分散在不同格式與平台（PDF、Word、網頁、郵件、ERP、MES、EAP 等），導致資訊搜尋效率低落、知識無法傳承與再利用。

生成式 AI 正好帶來一個轉機。如果企業能建立起一套屬於自己的語意知識庫，讓員工能夠「用問的就找到正確答案」，那將為效率與創新打開新局。這就是今天我們要談的主題：如何用 LangChain 與 Embedding 技術，打造專屬的企業級知識庫。

一、企業知識庫建置三步驟

步驟一：蒐集企業資料

企業知識庫的建置第一步，就是將所有可結構化與非結構化的資料集中管理，常見資料來源包括：

PDF 技術文件（例如：線材銅用量計算、設備維修 SOP）
ERP/MES 系統匯出報表（Excel/CSV）
工程圖紙與對應描述（PNG + TXT）
郵件往來與客訴紀錄
內部技術論壇、Slack、Teams 討論串

這些資料會以批次或即時方式儲存在指定資料夾、雲端硬碟或資料湖中，作為知識庫建置的基礎。

步驟二：資料前處理與向量化

為了讓 AI 能「理解」這些資料，我們需要將原始內容進行語意向量化（Semantic Embedding）。這一階段的處理流程包含：

OCR 文字辨識：將掃描 PDF 圖片轉為可搜尋的文字。
資料清洗：排除頁眉頁腳、換行符號、無效符號等。
Chunking（切段）：將長文件切成適當長度的段落（例如每 500 字一段），確保 AI 查詢精準且不會記憶過載。
向量轉換：透過向量模型（如 sentence-transformers/all-MiniLM-L6-v2 或 intfloat/multilingual-e5-small）將每段文字轉成數學向量，並儲存到向量資料庫（如 FAISS、Chroma、Weaviate）。

步驟三：建構查詢介面與回應流程

最後，我們使用 LangChain 框架整合上述流程，並建立問答系統的互動邏輯：

接收使用者提問 →
將問題向量化 →
到向量資料庫比對相似內容 →
將取回內容餵給 GPT 模型 →
回答使用者問題

LangChain 可以幫我們串接向量資料庫、OpenAI 或 Groq API，以及記憶機制與 RAG 查詢邏輯，是企業開發自定 AI 助理的重要工具。

二、實務範例：設備維修知識庫系統

假設場景：

公司有 30 台產線設備，每台設備都有不同的維修手冊與異常紀錄。新進工程師經常找不到對應知識，或得花很多時間問老鳥，導致維修效率低下。

解法流程：

將所有設備的 PDF 維修手冊與過去的維修紀錄整理成文字檔
使用 Python 進行分段、向量化並儲存至 FAISS 資料庫
建立 LangChain QA Chain，支援自然語言查詢

主要程式碼：

from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI

# 讀取 PDF 並切段
loader = PyPDFLoader("設備SOP.pdf")
pages = loader.load()
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = splitter.split_documents(pages)

# 建立向量資料庫
embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-small")
vectordb = FAISS.from_documents(docs, embeddings)

# 建立 QA 查詢鏈
llm = ChatOpenAI(model_name="gpt-4", temperature=0)
qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=vectordb.as_retriever())

# 測試提問
query = "如何排除 WE27 擠出機的加熱異常？"
response = qa_chain.run(query)
print(response)

三、常見問題與解決建議

問題	解法
資料太雜亂、不一致	設計 ETL 清洗流程，統一格式與欄位命名
非結構資料無法分段	利用語意斷句模型或手動調整 chunk 邏輯
查詢速度慢	使用 ANN 技術（如 FAISS IVF Flat）加速查詢
回答不準或語意錯誤	加入 metadata 檢索強化，或使用 hybrid search
多語資料難處理	使用多語言 embedding 模型處理（如 multilingual-e5）