iT邦幫忙

2025 iThome 鐵人賽

DAY 12
0
佛心分享-IT 人自學之術

LLM入門學習系列 第 12

Day 12:Tokenization 與 Embeddings — LLM 的數據基石

  • 分享至 

  • xImage
  •  

Day 12:Tokenization 與 Embeddings — LLM 的數據基石

要讓電腦處理語言,必須先將人類的文字轉換成電腦能處理的數值。這個過程涉及了兩個核心步驟:Tokenization (切割最小單元) 和 Embeddings (轉換成向量)。


1. Tokenization:從文字到最小單元

Tokenization 是將原始文本(字串)切分成模型能處理的**最小單位(Token)**的過程。這是所有 NLP 任務的第一步。

為什麼需要子詞編碼?

傳統的分詞方法(如按詞分詞)會面臨 OOV (Out-Of-Vocabulary) 問題,即模型遇到訓練集中未出現過的新詞時會無法處理。子詞編碼 (Subword Tokenization) 則在「字符級別」和「單詞級別」之間取得平衡。

技術名稱 核心原理 優點與應用
BPE (Byte Pair Encoding) 反覆合併最常出現的相鄰字元對,直到達到預設的詞彙表大小。 核心優勢是能解決 OOV 問題:將罕見詞拆解成多個常見子詞。廣泛應用於 GPT 系列BERT
SentencePiece 獨立於特定語言的 Tokenizer。它將空格視為一個普通字符,直接在字元層級進行分詞。 不依賴人工斷詞,特別適合處理多國語言和字元複雜的語言。廣泛應用於 Google 的模型 (如 T5)

2. Embeddings:從 Token 到向量空間

Tokenization 之後,下一個關鍵是將離散的 Token 轉換成電腦能處理的數值表示,即 Embeddings(嵌入向量)

向量空間的概念

  • 轉換流程:Token -> 整數 ID -> 透過 Embedding Layer -> 高維度向量(例如 768 或 1024 維)。
  • 語義映射:每個 Token 被映射到向量空間中的一個點。這個空間捕捉了語言的語義和語法關係:
    • 相近性:語義相似的詞語,在向量空間中的距離會非常接近(例如「狗」和「貓」)。
    • 可運算性:向量可以進行數學運算,如前面所學的國王−男人+女人≈女王。
  • 現代 LLM:使用上下文相關的動態 Embeddings,同一個詞在不同的句子中會被賦予不同的向量,以精準反映其當前語義

應用價值

  • NLP 任務:為翻譯、語意檢索等提供高品質的輸入。
  • 向量檢索 (Vector Search):利用向量來查找資料庫中語義最接近的內容,這是 RAG (Retrieval-Augmented Generation) 的核心基礎。

3. 餘弦相似度 (Cosine Similarity)

向量的幾何關係反映了語義的相似度。餘弦相似度是 LLM 中最常用來量測兩個向量語義相似性的方法。

原理與公式

餘弦相似度衡量的是兩個向量在空間中的方向是否一致,而不受向量長度的影響。
https://ithelp.ithome.com.tw/upload/images/20250926/201694885GeDauF4Hw.png

其中:

  • A⋅B 是向量 A 和 B 的內積。
  • ∣∣A∣∣和∣∣B∣∣是向量的長度。

結果解讀

餘弦相似度的值域在 [-1, 1] 之間:

  • 1:方向完全一致 -> 語義最相似
  • 0:兩向量正交 -> 語義無關聯
  • -1:方向完全相反 -> 語義最不相似

上一篇
Day 11:GPT 系列與自回歸模型
系列文
LLM入門學習12
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言