前一篇談到 TF、IDF、TF-IDF,這些方法都在想:
「文字在一篇文章裡,到底有什麼地位?」
今天要更進一步,把整個文本變成一個「數學世界裡的點」—— 這就是向量空間模型(Vector Space Model)。
簡單來說,就是用「向量」來表示文字資料。
圖片來源(image source):https://spotintelligence.com/2023/09/07/vector-space-model/#Cosine_Similarity_in_a_Vector_Space_Model
在模型裡,每一份文本會是一個向量,而向量是放在一個多維度的空間裡面(vector space)。
每個維度會對應到文本裡的特徵(例如詞的出現次數、或 TF-IDF),並且這些向量可以應用在文本分類、資料檢索和文本相似度分析上面。
👉🏻 換句話說,原本電腦看不懂的文字,現在變成數字化的向量,就能拿來計算、比較。
不管文字的順序,利用出現的文字,以及文字出現頻率,建立一個集合。
缺點是沒有考慮到語序跟語意。
在 BoW 的基礎上,給字詞加上「重要性」的權重。
幫助去掉雜訊詞,凸顯關鍵詞。
利用像是神經網路(Neural Network)的技術,將文字呈現成向量,讓詞帶有語意資訊。
Cosine Similarity 是用兩個向量之間的夾角,來去衡量文本之間的相似程度
相似度高 → 向量角度越接近 → 說明文本越相似
👉🏻 為什麼用 cosine similarity?
(Cosine similarity 之後有機會再深入細講~~)