Day 5｜接上真實世界：RAG 讓 LLM 有憑有據

2025 iThome 鐵人賽

DAY 5

生成式 AI

踏上 Agentic AI 探索之旅：我不再獨自升級！覺醒你的 AI 替身，打造智慧協作隊友系列第 5 篇

17th鐵人賽

tedlctai

2025-09-19 23:55:15

250 瀏覽

分享至

前言：為什麼需要 RAG？

昨天 (Day 4) 我們讓 LLM 學會了逐步推理（CoT），避免它「一閃而過」直接給出錯誤答案。但還有另一種常見風險：幻覺與過時。

舉例來說，問模型：「維也納美泉宮幾點開門？」它可能：

憑舊記憶回答「9 點」，卻沒注意官網其實改成 10 點。
找不到答案，卻編造一個聽起來合理的時間。

不論哪一種，都會誤導使用者。
檢索增強生成（Retrieval-Augmented Generation, RAG） 的目標，就是在回答前，先去查找最新且可信的資料，讓模型「有憑有據」。

RAG 基本流程

圖：RAG 基本流程。使用者問題先經過查詢轉換，透過向量資料庫、關鍵字搜尋或網頁搜尋取得候選內容，經過整理後再交給 LLM 生成答案，並附上引用。

這張圖展示了 最常見的 RAG（Retrieval-Augmented Generation）流程：

使用者問題：一開始我們丟給系統的問題，可能是「美泉宮幾點開門？」。
查詢轉換（Embedding / 關鍵字）：把自然語言的問題轉換成電腦可搜尋的形式，例如語意向量（Embedding），或是抽取關鍵字。
搜尋層（Retrieval）：透過三種常見方式尋找候選資料：
- 向量資料庫：找出語意最接近的片段。
- 關鍵字搜尋：依文字比對搜尋文件。
- 網頁搜尋：直接連網抓取最新資訊。
搜尋結果（Top-k Results）：從眾多候選中選出最相關的幾筆（通常是前 k 筆）。
整理參考資料（Context Builder）：將搜尋到的內容與使用者問題組合，提供給模型一個「有根據的上下文」。
LLM 生成答案：大型語言模型（如 GPT、Gemini、Claude）根據這些參考內容生成答案。
輸出（答案 + 引用來源）：最終回答會包含來源，讓使用者能夠追溯並驗證資料。

整個流程就像「開書考」：LLM 不再靠記憶亂猜，而是先翻資料，再基於找到的依據作答。這正是 RAG 的核心價值——用真實資料降低幻覺，提升可信度。

RAG 什麼時候該用？

適合：需要引用來源、模型知識可能過時、或要基於特定文件回答
不適合：純數學運算、強即時資訊（天氣、股價）、純創意寫作

簡單的判斷：

「這題需要最新或有根據的答案嗎？」→ 用 RAG
「這題答案長期穩定不變嗎？」→ 直接問 LLM

RAG 的常見實作方式

雖然大家常把 RAG 想成「丟進向量資料庫再查出來」，但實際上有不同的做法，各有適合的情境：

向量搜尋（Vector Search）
- 把問題與文件段落轉換成向量，依語意相似度來搜尋。
- 優點：能處理同義詞或語意接近的問題（例如「維也納皇宮」也能找到「美泉宮」）。
- 缺點：需要額外的向量化步驟，效能與準確度取決於編碼模型。
關鍵字搜尋（Keyword Search）
- 直接比對字詞，類似傳統搜尋引擎或全文索引。
- 優點：快速、解釋性強，對精確詞彙（如「票價」、「9 點開門」）特別有效。
- 缺點：對於語意模糊或換句話說的問題不一定能命中。
Web 搜尋
- 透過搜尋 API 或即時網頁資料取得答案。
- 優點：可用於最新資訊（例如「今天維也納下雨嗎？」）。
- 缺點：結果品質依賴搜尋引擎，還需要額外處理雜訊與不可信來源。

這樣的比較讓我們理解：
RAG 不是只有向量庫，而是可以靈活結合不同搜尋方式，依需求挑選最合適的管道。

Demo：最簡單的 RAG (Naive)

目標：從零理解 RAG 的運作
流程：建立文件庫 → 向量化 → 搜尋 → 生成答案

安裝相依套件

pip install -U sentence-transformers faiss-cpu google-generativeai

範例程式

from sentence_transformers import SentenceTransformer
import faiss
import google.generativeai as genai

# 1. 初始化編碼模型（BGE 系列對中文檢索效果不錯）
encoder = SentenceTransformer("BAAI/bge-base-zh-v1.5")

# 2. 文件庫（示範資料）
docs = [
    "美泉宮（Schönbrunn Palace）通常每天上午 9 點開門。",
    "美景宮（Belvedere Palace）一般營業時間是上午 10 點。",
    "聖史蒂芬大教堂（St. Stephen's Cathedral）通常上午 8 點開放。"
]

# 3. 建立向量索引
embeddings = encoder.encode(docs)
index = faiss.IndexFlatL2(embeddings.shape[1])
index.add(embeddings)

# 4. 查詢
query = "美泉宮幾點開門？"
q_emb = encoder.encode([query])
D, I = index.search(q_emb, k=1)
retrieved = docs[I[0][0]]

# 5. 呼叫 Gemini（免費額度可用）
genai.configure(api_key="你的_API_KEY")
llm = genai.GenerativeModel("gemini-2.0-flash")

prompt = f"根據以下資訊回答問題：\n\n資訊：{retrieved}\n\n問題：{query}\n請用中文簡潔回答。"
response = llm.generate_content(prompt)

print("搜尋結果:", retrieved)
print("LLM 回答:", response.text)

輸出結果

Naive RAG 輸出結果
圖：Naive RAG 範例程式的實際輸出。模型先檢索到「美泉宮通常每天上午 9 點開門」的相關段落，再依據檢索結果生成答案。這樣的流程，就像讓 LLM 在「開書考」中作答：不是憑記憶或幻覺，而是依據明確依據來回應。

你剛剛完成了最簡單的 RAG：

搜尋：從文件庫找出最相關內容
增強：把命中文本塞進 Prompt
生成：LLM 在證據上作答

Demo 2：用 Web 搜尋做 RAG

前一個範例使用的是「本地知識庫」——先準備一批文件，再建立索引。這種方式適合固定的 FAQ、產品文件或內部資料。

但如果我們想查的是最新的資訊，例如「美泉宮今天幾點開門？」或「這週維也納的天氣如何？」光靠本地文件就不夠了。這時候就需要 Web 搜尋型的 RAG。

這裡我們示範透過 DuckDuckGo（DDG）搜尋引擎 來擴充 RAG：它支援中文查詢、不需要申請 API key，適合快速整合進入原型。

安裝套件

pip install ddgs google-generativeai

範例程式

from ddgs import DDGS
import google.generativeai as genai

# 1. 問題
query = "美泉宮 Schönbrunn Palace 幾點開門？"

# 2. 執行 DuckDuckGo 搜尋（支援中文，免 API key）
with DDGS() as ddgs:
    results = [r["body"] for r in ddgs.text(query, region="tw-tzh", max_results=10)]

retrieved = "\n".join(results)

# 3. 呼叫 Gemini（免費額度可用）
genai.configure(api_key="你的_API_KEY")
llm = genai.GenerativeModel("gemini-2.5-flash")

prompt = f"根據以下網路搜尋資訊回答問題：\n\n資訊：{retrieved}\n\n問題：{query}\n請用中文簡潔回答，並在答案後標註來源。"
response = llm.generate_content(prompt)

# 4. 輸出
print("搜尋結果:", retrieved)
print("LLM 回答:", response.text)

輸出結果

Web 搜尋型 RAG 實際輸出
圖：Web 搜尋型 RAG 範例程式的實際輸出。這次不依賴本地文件庫，而是透過 DuckDuckGo 即時搜尋，取得美泉宮的開放時間，再交給 LLM 生成答案。這種方式適合需要「最新、公開資訊」的情境，例如查詢營業時間、新聞或官網公告。