iT邦幫忙

2025 iThome 鐵人賽

DAY 4
0
AI & Data

從RAG到EmoRAG:讓AI真正聽懂你的心聲系列 第 4

第4天:向量檢索與情緒嵌入

  • 分享至 

  • xImage
  •  

什麼是向量檢索?

向量檢索是現代RAG系統的核心技術之一。簡單來說,就是將文本轉換為高維向量表示,然後透過計算向量之間的相似度來找到最相關的文檔。

傳統的關鍵字檢索(如BM25)依賴精確的詞匯匹配,但向量檢索能理解語義相似性。比如說,當你搜索「快樂」時,它也能找到包含「開心」、「愉悅」等相近含義的文檔。

向量檢索的工作原理:

文檔編碼:使用預訓練模型將文檔轉為向量

查詢編碼:將用戶查詢也轉為向量

相似度計算:計算查詢向量與文檔向量的相似度(通常使用餘弦相似度)

結果排序:按相似度分數排序並返回最相關的文檔

有哪些向量檢索工具?

根據文檔內容,主要的向量檢索工具包括:

1. ChromaDB
輕量級的向量數據庫,非常適合原型開發

支持多種相似度計算方法(cosine、euclidean等)

內建元數據過濾功能

2. SentenceTransformer
專門用於生成高質量中文語義向量

文檔中使用了 shibing624/text2vec-base-chinese 模型

能夠很好地處理中文語義理解

3. 其他常見工具
雖然文檔中主要使用ChromaDB,但業界還有其他優秀的向量檢索工具:

Faiss:Facebook開發的高性能向量檢索庫

Pinecone:雲端向量數據庫服務

Weaviate:開源的向量搜索引擎

Milvus:專為AI應用設計的向量數據庫,最專業的向量檢索工具,適合企業引入。


實作

實作目標:實作情緒感知的向量檢索,使用ChromaDB開源版+SentenceTransformer,這個免費的強強組合不須任何規費

核心分工:各司其職的完美配合
SentenceTransformer:語義編碼專家
專長:將文本轉換為高質量向量表示

語義理解能力強:特別是 shibing624/text2vec-base-chinese 對中文語義的理解

模型選擇豐富:支援100多種語言的預訓練模型

編碼一致性:同一個模型確保查詢和文檔在同一向量空間

ChromaDB:向量存儲與檢索專家
專長:高效的向量存儲、索引和相似度搜索

向量數據庫功能:專為向量檢索優化的存儲引擎

多重檢索能力:支援向量搜索、全文搜索、元數據過濾

相似度計算:內建餘弦相似度等多種距離計算方法


文字範例向量檢索結果

"心情不錯"的距離都在0.3多
search=心情不錯
"生氣"的距離都在0.45多
search=生氣
"厭惡"的距離都在0.41多
search=厭惡


情緒的檢索向量分布

參數:distance

將文字轉換成向量座標0-1之間的一維表示法。

1. 跨情緒檢索現象

圖表顯示了一個很重要的現象:即使設定目標情緒過濾,仍會檢索到其他情緒的文檔。

比如"悲傷"目標情緒下出現了"焦慮"的點,這反映了:

  • 語義相似度 > 情緒標籤匹配的檢索策略
  • 情緒間的語義關聯性(悲傷與焦慮確實在語義上相關)
  • 混合檢索的靈活性

2. 模型表現評估

同類情緒點呈現明顯的聚類趨勢

情緒的檢索向量分布


情緒的檢索向量與情緒數值相似程度

1. 情緒聚類效果

**參數:距離尺標 (scaled_position) **

為了更好地視覺化相似度,我們將 ChromaDB 返回的原始距離(通常在 0 到 2 之間,距離越小越相似)轉換為一個 0 到 1 的 scaled_position 尺標。
scaled_position 的計算公式為 (2 - distance) / 2。這使得值越接近 1 表示相似度越高,點在圖表上越靠右。

觀察不同情緒的分布模式:
  • 快樂情緒(粉色點):大多分布在0.77-0.87的高相似度區間
  • 興奮情緒(綠色點):主要集中在0.79-0.82區間,聚類效果良好
  • 悲傷情緒(紫色點):分布在0.83-0.87區間,相似度普遍較高
技術解讀:

這說明SentenceTransformer在情緒語義空間的表示是有效的,同類情緒文本在向量空間中確實聚集在一起!

優秀表現指標:

  • 高信心度閾值:scaled_position > 0.85
  • 中等信心度閾值:0.75 < scaled_position <= 0.85
  • 低信心度閾值:scaled_position <= 0.75
結論:

大多數點集中在0.75-0.87的中等相似度區間
情緒的檢索向量與情緒數值相似程度
實作放在colab


上一篇
第3天:關鍵字檢索實作與情緒標籤
下一篇
第5天:混合檢索與情緒加權
系列文
從RAG到EmoRAG:讓AI真正聽懂你的心聲5
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言