iT邦幫忙

2025 iThome 鐵人賽

DAY 15
0
生成式 AI

生成式 AI 30 天觀念導讀:不寫程式也看懂的實戰思維系列 第 15

Day 15|Embedding 與索引:找得到,才答得好

  • 分享至 

  • xImage
  •  

為什麼需要談?
RAG 的上限卡在「有沒有把對的段落找出來」。召回錯了,生成再強都白搭。

白話定義

Embedding:把文字壓成可比較距離的向量,語意近就距離短。

索引(Index):像一本高效率目錄,讓你能在大海撈針時快速定位。

常見情境
政策問答、產品 FAQ、跨文件找證據、相似問句歸類、重複內容去重。

常見誤解

「語意搜一定比關鍵字好」→ 專有名詞、代號、法條號其實更適合關鍵字精準匹配。

「距離最短=一定最相關」→ 有時只是語氣像,內容不對題。

「只看向量庫就夠」→ 文件新舊、來源可信度也要納入。

實用心法

三合一檢索:Embedding 語意搜+BM25 關鍵字搜+規則搜(正則/欄位)→ 合併排名。

同義詞表:先列 10 組常見別名(「國中/初中」「教師/老師」)加入檢索規則。

來源加權:對「新版、權威來源、核心章節」加分,對過期或外部論壇降分。

檢核清單

哪些詞/代碼必須「精準比對」而非語意模糊?

Top-5 是否至少命中一段含關鍵數字/定義的「可引用」段落?

排名是否同時考量版本、新鮮度與來源可靠度?

小結
先把「能找到對的東西」這件事做好,才有資格談生成品質。檢索品質=回答上限。


上一篇
Day 14|RAG 入門:為什麼比硬調模型更務實
下一篇
Day 16|Chunking 策略:切多細才剛好
系列文
生成式 AI 30 天觀念導讀:不寫程式也看懂的實戰思維19
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言