iT邦幫忙

2025 iThome 鐵人賽

DAY 7
0
AI & Data

AI、機器學習以及深度學習的語言學應用系列 第 7

Day 7 - Vector Space Model(向量空間模型):文字在空間裡的距離感

  • 分享至 

  • xImage
  •  

前一篇談到 TF、IDF、TF-IDF,這些方法都在想:
「文字在一篇文章裡,到底有什麼地位?」

今天要更進一步,把整個文本變成一個「數學世界裡的點」—— 這就是向量空間模型(Vector Space Model)。


什麼是向量空間模型?

簡單來說,就是用「向量」來表示文字資料。

vector space model
圖片來源(image source):https://spotintelligence.com/2023/09/07/vector-space-model/#Cosine_Similarity_in_a_Vector_Space_Model

在模型裡,每一份文本會是一個向量,而向量是放在一個多維度的空間裡面(vector space)。

每個維度會對應到文本裡的特徵(例如詞的出現次數、或 TF-IDF),並且這些向量可以應用在文本分類、資料檢索和文本相似度分析上面。

👉🏻 換句話說,原本電腦看不懂的文字,現在變成數字化的向量,就能拿來計算、比較。


建立向量空間的常見方法

  1. Bag-of-Words (BoW)

不管文字的順序,利用出現的文字,以及文字出現頻率,建立一個集合。

缺點是沒有考慮到語序跟語意。

  1. TF-IDF

在 BoW 的基礎上,給字詞加上「重要性」的權重。

幫助去掉雜訊詞,凸顯關鍵詞。

  1. Word Embeddings

利用像是神經網路(Neural Network)的技術,將文字呈現成向量,讓詞帶有語意資訊。


如何衡量文本之間的「相似度」?

Cosine Similarity

Cosine Similarity 是用兩個向量之間的夾角,來去衡量文本之間的相似程度

相似度高 → 向量角度越接近 → 說明文本越相似

👉🏻 為什麼用 cosine similarity?

  • 因為它不會管文本的大小,因此文本大小不會影響相似度的計算
  • 它關注的是向量的方向,因此不會管絕對數值,只去計算向量之間的角度
  • 對機器來說很方便,因此適用於比較大的文本資料集

(Cosine similarity 之後有機會再深入細講~~)


上一篇
Day 6 - TF-IDF:我在你心裡究竟是什麼地位
下一篇
Day 8 - Cosine Similarity:你我之間的夾角
系列文
AI、機器學習以及深度學習的語言學應用9
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言