Day 11 - 使用 Transformers (2) - Tokenizer(上半部) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 11

自我挑戰組

30天從零開始學習NLP(自然語言處理) 系列第 11 篇

Day 11 - 使用 Transformers (2) - Tokenizer(上半部)

15th鐵人賽 tokenizer transformers

肉彈

2023-09-26 20:45:05

720 瀏覽

分享至

今天我們要針對昨天說到的三個部份的第一個部分 Tokenizer 來做說明 (會先講一半)

以上圖出自 Hugging Face 官方

Tokenizer 的主要功能是將自然語言文本轉換為機器可理解的形式，Tokenizer 接受原始文本作為輸入，並將其分解成詞彙或子詞（subwords）的序列，每個詞彙或子詞通常對應到一個唯一的數字 ID。這個轉換過程稱為 "tokenization"，它將文本轉換成機器可理解的形式，使得模型能夠處理它們。

以上圖出自 Hugging Face 官方

接下來我們使用預訓練的 BERT 模型來示範

1. 首先將文字拆分為單字

通常這個動作稱為標記 (token)

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print(tokens)

首先我們導入 Transformers 中的 AutoTokenizer 類別，這個類別允許你根據模型的名稱或模型 checkpoint 路徑來自動選擇並載入適當的 tokenizer。
from_pretrained 方法會自動從 Hugging Face 模型庫下載並載入指定的 tokenizer，這裡我們使用預訓練的 BERT 模型。
使用載入的 tokenizer，將輸入序列 sequence 標記化為詞元

['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']

對詞進行拆分後，直到獲得可以用其詞彙表表示的標記(token)。
每個詞元對應輸入序列中的一個單詞或一部分單詞，並且 ## 前綴表示子詞分割

2. 再來將這些標記轉換為數字

ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

使用載入的 tokenizer 的 convert_tokens_to_ids 方法，將經過標記化的詞元列表 tokens 轉換為它們在詞彙表中的詞彙 ID。

[7993, 170, 11303, 1200, 2443, 1110, 3014]

輸出將是一個整數列表，其中每個整數對應於輸入詞元列表中的詞元在模型詞彙表中的 ID。

3. 將詞彙 ID 添加特殊標記

final_input = tokenizer.prepare_for_model(ids)

print(final_input['input_ids'])

預訓練模型通常需要在輸入的文本之前和之後添加特殊標記，如 [CLS]（用於分類任務）和 [SEP]（用於分隔文本或標記句子邊界）。這些標記對於模型的正確操作非常重要。
這裡使用prepare_for_model方法，將詞彙 ID 清單ids轉換為適合輸入到模型的形式。

[101, 7993, 170, 11303, 1200, 2443, 1110, 3014, 102]

最後的輸出呢會因應使用的預訓練模型而不同，我們使用的是 BERT Tokenizer，所以最後的 final 輸出前加上了 101 後面加上了 102

下一章我們繼續把剩下的 Tokenizer 的部分完成 (●'◡'●)

參考資料

Day 10 - 使用 Transformers (1)

Day 12 - 使用 Transformers (3) - Tokenizer(下半部)

系列文

30天從零開始學習NLP(自然語言處理) 共 30 篇

RSS系列文訂閱系列文

5 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22207 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

30天從零開始學習NLP(自然語言處理) 系列 第 11 篇