Day 4｜(過去篇) 如何讓 AI 回答你工廠的專業問題（RAG介紹與實戰） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 4

0

生成式 AI

生成式AI的風起雲湧 - 從教育到企業落地應用 (過去‧現在‧未來)系列第 4 篇

Day 4｜(過去篇) 如何讓 AI 回答你工廠的專業問題（RAG介紹與實戰）

17th鐵人賽

2025-09-18 12:22:50

150 瀏覽

分享至

生成式 AI 的崛起，讓我們開始思考一個過去只能存在知識達人腦海裡的場景：

「今天是夜班，資深班長請假了，現場遇到一台設備報異常。工程師在 Line 群組問：『這個 WE27 的溫控異常，有解法嗎？』幾秒鐘後，一個 AI 回答：『請依照 SOP 第 4.2 節的方式降溫重啟，並確認 PLC 的 #Node34 是否回傳成功。』」

這樣的畫面，我們真的做到了。

這篇，我想分享我實際在工廠導入 RAG 系統（Retrieval-Augmented Generation）的整個流程，從資料取得、向量化、chunk 的設計，到不同 RAG 架構的選擇與推薦。

🏭 第一章：資料取得——你沒有資料，AI 什麼都不知道

許多人問我：「ChatGPT 這麼聰明，為什麼它回答不了我們工廠的問題？」

我說：「因為 ChatGPT 不知道你們工廠有幾台機器，型號是什麼，誰在用，規格是什麼，也從沒看過你們的 SOP、品保流程與 BOM 表。」

RAG 的本質是：讓語言模型可以「引用」你自己的資料來回答問題，而這一切的第一步，就是：你要有資料。

📂 我們做了哪些資料整理？

PDF 文件：機台說明書、電控圖、工安手冊、保養記錄、品管程序
Excel 表格：BOM、料號對照表、維修歷程、數據模板
內部問答紀錄：從 Line / Teams 群組提煉出 FAQ
網頁系統截取：透過 Selenium 擷取 MES、ERP 等頁面文字
逐字稿：錄音轉文字 + 人工校對

我們使用 PDFMiner、PyMuPDF、Tesseract OCR、Selenium 自動化與 pandas 清洗資料，將所有內容統一為可嵌入格式。

🧱 第二章：向量化與 Chunk 設計——讓 AI 聽得懂你的世界

資料有了，下一步是「向量化」，將文字轉成可供語言模型理解的 embedding 向量。

🔍 嵌入模型比較

模型名稱	優點	缺點
`text-embedding-ada-002`	穩定、效果好	有 token 限制，需聯網且付費
`all-mpnet-base-v2`	本地部署穩定、免費	中文效果中等
`multilingual-e5-small`	中文效果佳、可多語言	需正確設計 prompt pairing

我們最終選擇 E5-small + FAISS 向量庫，因為適合中文環境、可離線部署且維護成本低。

📦 Chunk 設計技巧與實務原則

Chunk 是將大段文字切割成小段的動作，以便建立可精準檢索的向量。

✅ Chunk 實務建議

技巧	說明
每段 200~400 字	控制大小，保留上下文
以標題或章節切分	使用 `#`、節點編號等結構為依據
加上來源資訊	頁數、章節，有助回溯與信任
分群 index	SOP 一個群組，QA 一個群組
使用滑動視窗	重疊文字增強語意連貫性

最佳策略：用標題為切分的邊界 + 每段重疊 100 字

🧠 第三章：不同 RAG 架構比較與推薦

實驗一：Basic RAG（單層）

技術架構：Embedding + FAISS + ChatGPT
優點：實作簡單、容易上手
缺點：容易出現資料不夠精準
適合場景：POC、非關鍵場域應用

實驗二：Multi-index RAG（多資料源比對）

技術架構：依資料類型建不同 vector store
優點：回答更具針對性、可擴充性高
缺點：需額外實作 routing 分流邏輯
適合場景：工廠知識問答、品保異常查詢

實驗三：Structured RAG（結構化提示 + metadata）

技術架構：向量庫 + metadata filter（例如：機台代碼）
優點：可控制回答範圍
缺點：資料建構門檻高
適合場景：製程診斷、保養應答

實驗四：Multi-turn + Feedback RAG

技術：結合 LangChain Memory + Feedback Store
優點：可延續對話
缺點：複雜度高
適合場景：內部客服系統、操作助理

工具與平台選擇建議

元件	工具推薦
向量資料庫	FAISS / Weaviate
Embedding	E5-small / all-mpnet-base-v2
Chunk 工具	LangChain TextSplitter / 自訂滑動分段器
回答引擎	GPT-4 / LLaMA-3 / Claude 3
前端介面	Streamlit / Flask + Vue

我的實戰心得

資料比模型更重要
Chunk 是 UX 的第一道防線
先做能用的、再做更好的
可對話、可追問的體驗是關鍵

RAG 系統不是「讓 AI 什麼都知道」，而是「讓 AI 認識你自己的工廠」。

📌 敬請期待：

Day 5｜從現場提問中打造企業級AI知識系統的關鍵觀察：從提問者角度出發

Day 3｜(過去篇) 第一次把 AI 用進課堂的經驗（教學實錄）

Day 5｜(過去篇) 從現場提問中打造企業級 AI 知識系統的關鍵觀察：從提問者角度出發

系列文

生成式AI的風起雲湧 - 從教育到企業落地應用 (過去‧現在‧未來) 共 10 篇

目錄

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙