Embedding (向量化)是把文字轉換成電腦能理解的數字向量的過程。
為什麼我們需要Embedding?
因為電腦只懂數字,不懂文字。假如要讓AI判斷以下兩句話意思相不相近:
A:「我喜歡吃壽司」
B:「Sushi is my favorite food.」
傳統的文字比對(像關鍵字搜尋)會認為它們完全不同,但用Embedding模型轉成向量後,每個數字代表這句話的語意特徵,這樣AI就能用數學方式比較兩句話的意思是否接近,如果某兩個向量的距離很近,就代表語意相似。簡單來說,Embedding可以讓AI進行語意搜尋而不是字面搜尋。
所以我們在做RAG語意檢索時,通常第一步會先把所有文本用embedding模型轉成向量,再來對使用者查詢也做embedding,接著用餘弦相似度 (cosine similarity) 來比對距離最近的文件。