Day 9｜從文字到數字：Vector 與 Embedding 的基本概念

2025 iThome 鐵人賽

DAY 9

AI & Data

讓電腦聽懂人話：30 天 NLP 入門系列第 9 篇

17th鐵人賽 nlp vector embedding

張美珠

團隊美珠姨

2025-09-23 09:33:40

204 瀏覽

分享至

引言

我們知道電腦無法像人一樣直接理解文字。要讓電腦「看懂」文字，我們必須先把文字轉換成數字的形式，才能進行後續的分析或建模。

在 主題三：特徵與表示 中，我會介紹一系列把文字轉成數字的方法，也就是文字的 表示法（representation），也可以稱作文字的 特徵（feature）。
這些表示法從最簡單、直觀的統計方法開始，隨著對文字資訊理解的加深，會演變得更精緻，能捕捉更多語意和上下文的資訊。

首先要來介紹兩個概念，也是後面會不斷提到的詞：向量（vector）和嵌入（embedding）

向量（vector）

「向量」就是大家在高中數學有學到的一個數學上的概念。基本上就是一串數字，像這樣 [0.2, 0.8, 0.1]。向量有方向和大小的概念，可以做數學運算，可以是多個維度，可以在空間中表示。
所以向量本身是一種資料結構，可以用來表示任何數字化的資訊，包括文字、圖片和聲音等等。

而當我們是把「文字」轉成數字後，這串向量我們就可以稱之為 「嵌入」（embedding）。

嵌入（embedding）

當我們把文字向量化，變成 embedding 後，文字本身的各種特徵或資訊就像是被「打包」起來，例如：詞頻、詞的重要性、語義等，都可以用這串向量來表示。
像是我們在之前文章提到的 OpenAI token 計算的網頁中，將「自然語言處理」這段文字 tokenize，每個 token 有自己的 token ID，然後形成的這串數字 [116258, 40909, 17765, 129805, 5584] 就是一個 embedding。