DAY18：認識Embedding

學習筆記

妤 2025-10-21 16:23:55 ‧ 461 瀏覽

分享至

Embedding (向量化）是把文字轉換成電腦能理解的數字向量的過程。

為什麼我們需要Embedding?
因為電腦只懂數字，不懂文字。假如要讓AI判斷以下兩句話意思相不相近：
A：「我喜歡吃壽司」
B：「Sushi is my favorite food.」
傳統的文字比對（像關鍵字搜尋）會認為它們完全不同，但用Embedding模型轉成向量後，每個數字代表這句話的語意特徵，這樣AI就能用數學方式比較兩句話的意思是否接近，如果某兩個向量的距離很近，就代表語意相似。簡單來說，Embedding可以讓AI進行語意搜尋而不是字面搜尋。

所以我們在做RAG語意檢索時，通常第一步會先把所有文本用embedding模型轉成向量，再來對使用者查詢也做embedding，接著用餘弦相似度 (cosine similarity) 來比對距離最近的文件。