iT邦幫忙

0

DAY18:認識Embedding

2025-10-21 16:23:55214 瀏覽
  • 分享至 

  • xImage
  •  

Embedding (向量化)是把文字轉換成電腦能理解的數字向量的過程。


為什麼我們需要Embedding?
因為電腦只懂數字,不懂文字。假如要讓AI判斷以下兩句話意思相不相近:
A:「我喜歡吃壽司」
B:「Sushi is my favorite food.」
傳統的文字比對(像關鍵字搜尋)會認為它們完全不同,但用Embedding模型轉成向量後,每個數字代表這句話的語意特徵,這樣AI就能用數學方式比較兩句話的意思是否接近,如果某兩個向量的距離很近,就代表語意相似。簡單來說,Embedding可以讓AI進行語意搜尋而不是字面搜尋。

所以我們在做RAG語意檢索時,通常第一步會先把所有文本用embedding模型轉成向量,再來對使用者查詢也做embedding,接著用餘弦相似度 (cosine similarity) 來比對距離最近的文件。


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言