iT邦幫忙

2024 iThome 鐵人賽

DAY 15
0
生成式 AI

阿嬤也能懂的AI世界:30個生成式AI與Google Apps Script核心觀念系列 第 15

Tokenization:將語言拆解成AI能理解的「小單位」

  • 分享至 

  • xImage
  •  

想像你正在做一個拼圖遊戲。剛開始時,整個圖案是一片混亂,完全看不出是什麼。但當你把一塊一塊的拼圖拆開來,仔細研究每一片的形狀、顏色,然後再一片片拼湊回去,最後你才能完整地看到一幅美麗的風景。這個拆解和重組的過程,跟「Tokenization」(分詞)在AI世界中的角色非常相似。

Tokenization 是一種將語言拆解成小單位的技術,這些小單位稱為「Token」(詞元)。每一個 Token 可以是單詞、標點符號,甚至是單個字母或片語,取決於使用的規則。就像我們把一段文字看成是一張拼圖,AI 在處理語言時,必須先把這些句子拆解成一個個小小的拼圖塊,才能進一步理解和處理。

例如:當你輸入一句話「我愛喝咖啡」到 AI 系統中,Tokenization 會把這句話拆解成「我」、「愛」、「喝」、「咖啡」這四個詞元。這樣的拆解過程,讓 AI 能夠針對每個詞元進行分析,進而理解整體句子的意思。

在日常生活中,你可能不知不覺中已經體驗過 Tokenization 的應用。例如:當你在使用語音助理 Siri 或 Google Assistant 時,你說出「幫我設定明天早上八點的鬧鐘」。語音助理在聽到這句話後,會先將整句話分解成不同的詞元,例如「幫我設定」、「明天」、「早上」、「八點」、「鬧鐘」。透過這些詞元的分析,AI 才能明白你的指令,進而設置鬧鐘。

又或是當你在使用翻譯軟體時,輸入一段句子進行翻譯。翻譯軟體的第一步也是進行 Tokenization,把句子拆解成一個個可理解的詞元,再進行翻譯。這種拆解過程對於語意的精確捕捉至關重要,因為每個詞元都有其特定的含義和用法。

Tokenization 的重要性在於它是語言處理的第一步,沒有這一步,AI 無法準確地進行後續的分析和決策。對於不同的語言,Tokenization 的方式也會有所不同。像中文這樣沒有明確空格的語言,比英文的分詞難度更大,因此需要更加精細的算法去進行分詞。分詞的準確性直接影響了 AI 在理解和生成語言時的表現。

舉例來說,如果把「我愛喝咖啡」錯誤地拆成「我愛」、「喝咖」、「啡」,這樣的結果就會讓AI誤解意思,產生不正確的回應。因此,Tokenization 的準確性至關重要,它就像是語言拼圖中的每一片,稍有錯誤就可能導致整幅畫面的失真。

Tokenization 的挑戰在於語言的多樣性和複雜性。不同的語言有不同的分詞規則,像英文會有空格作為詞與詞之間的分隔,但中文、日文等語言則需要更精細的處理方式。此外,諸如諺語、俚語等特殊表達,對於分詞的正確性也是一大挑戰。

Tokenization 就像是讓AI進行拼圖遊戲的第一步,只有把每個詞元拆解正確,AI才能精確理解整句話的意思,並做出相應的回應。它是語言處理的重要基石,讓AI能夠在語言的世界中游刃有餘,與我們進行自然且精確的溝通。


上一篇
微調:讓AI變得更聰明的進階訓練
下一篇
Embedding:讓AI理解語言的「數學轉換」
系列文
阿嬤也能懂的AI世界:30個生成式AI與Google Apps Script核心觀念30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言