Day 12：Tokenization 與 Embeddings — LLM 的數據基石 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 12

佛心分享-IT 人自學之術

Day 12：Tokenization 與 Embeddings — LLM 的數據基石

17th鐵人賽

141 瀏覽

要讓電腦處理語言，必須先將人類的文字轉換成電腦能處理的數值。這個過程涉及了兩個核心步驟：Tokenization (切割最小單元) 和 Embeddings (轉換成向量)。

Tokenization 是將原始文本（字串）切分成模型能處理的**最小單位（Token）**的過程。這是所有 NLP 任務的第一步。

傳統的分詞方法（如按詞分詞）會面臨 OOV (Out-Of-Vocabulary) 問題，即模型遇到訓練集中未出現過的新詞時會無法處理。子詞編碼 (Subword Tokenization) 則在「字符級別」和「單詞級別」之間取得平衡。

技術名稱	核心原理	優點與應用
BPE (Byte Pair Encoding)	反覆合併最常出現的相鄰字元對，直到達到預設的詞彙表大小。	核心優勢是能解決 OOV 問題：將罕見詞拆解成多個常見子詞。廣泛應用於 GPT 系列、BERT。
SentencePiece	獨立於特定語言的 Tokenizer。它將空格視為一個普通字符，直接在字元層級進行分詞。	不依賴人工斷詞，特別適合處理多國語言和字元複雜的語言。廣泛應用於 Google 的模型 (如 T5)。

Tokenization 之後，下一個關鍵是將離散的 Token 轉換成電腦能處理的數值表示，即 Embeddings（嵌入向量）。

轉換流程：Token -> 整數 ID -> 透過 Embedding Layer -> 高維度向量（例如 768 或 1024 維）。
語義映射：每個 Token 被映射到向量空間中的一個點。這個空間捕捉了語言的語義和語法關係：
- 相近性：語義相似的詞語，在向量空間中的距離會非常接近（例如「狗」和「貓」）。
- 可運算性：向量可以進行數學運算，如前面所學的國王−男人+女人≈女王。
現代 LLM：使用上下文相關的動態 Embeddings，同一個詞在不同的句子中會被賦予不同的向量，以精準反映其當前語義。