Day 7 - Vector Space Model（向量空間模型）：文字在空間裡的距離感 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 7

AI & Data

AI、機器學習以及深度學習的語言學應用系列第 7 篇

Day 7 - Vector Space Model（向量空間模型）：文字在空間裡的距離感

17th鐵人賽

Carol

團隊美珠姨

2025-09-21 19:56:03

148 瀏覽

分享至

前一篇談到 TF、IDF、TF-IDF，這些方法都在想：
「文字在一篇文章裡，到底有什麼地位？」

今天要更進一步，把整個文本變成一個「數學世界裡的點」—— 這就是向量空間模型（Vector Space Model）。

什麼是向量空間模型？

簡單來說，就是用「向量」來表示文字資料。

vector space model
圖片來源（image source）：https://spotintelligence.com/2023/09/07/vector-space-model/#Cosine_Similarity_in_a_Vector_Space_Model

在模型裡，每一份文本會是一個向量，而向量是放在一個多維度的空間裡面（vector space）。

每個維度會對應到文本裡的特徵（例如詞的出現次數、或 TF-IDF），並且這些向量可以應用在文本分類、資料檢索和文本相似度分析上面。

👉🏻 換句話說，原本電腦看不懂的文字，現在變成數字化的向量，就能拿來計算、比較。

建立向量空間的常見方法

Bag-of-Words (BoW)

不管文字的順序，利用出現的文字，以及文字出現頻率，建立一個集合。

缺點是沒有考慮到語序跟語意。

TF-IDF

在 BoW 的基礎上，給字詞加上「重要性」的權重。

幫助去掉雜訊詞，凸顯關鍵詞。

Word Embeddings

利用像是神經網路（Neural Network）的技術，將文字呈現成向量，讓詞帶有語意資訊。

如何衡量文本之間的「相似度」？

Cosine Similarity

Cosine Similarity 是用兩個向量之間的夾角，來去衡量文本之間的相似程度

相似度高 → 向量角度越接近 → 說明文本越相似

👉🏻 為什麼用 cosine similarity？

因為它不會管文本的大小，因此文本大小不會影響相似度的計算
它關注的是向量的方向，因此不會管絕對數值，只去計算向量之間的角度
對機器來說很方便，因此適用於比較大的文本資料集

（Cosine similarity 之後有機會再深入細講～～）

Day 6 - TF-IDF：我在你心裡究竟是什麼地位

Day 8 - Cosine Similarity：你我之間的夾角

系列文

AI、機器學習以及深度學習的語言學應用共 30 篇

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI、機器學習以及深度學習的語言學應用系列 第 7 篇