iT邦幫忙

2025 iThome 鐵人賽

DAY 5
0
生成式 AI

生成式 AI開發:打造聊天機器人系列 第 5

什麼是Transformer架構

  • 分享至 

  • xImage
  •  

在昨天,我們談過大型語言模型(LLM)的原理與應用。今天我們要進一步理解支撐它們的核心技術 —— Transformer 架構。這個架構由Google團隊提出,主要用於自然語言處理(NLP)任務,像是機器翻譯、文本生成等。短短幾年就成為生成式 AI 的基石。

核心概念
Transformer是一種神經網路架構,透過自注意力機制學習序列資料中各元素之間的關係,從而捕捉上下文的脈絡和意義。它能同時關注序列中所有位置的資訊,就像理解句子中每一個字與其他字之間的關聯,進而理解整體語義。

Transformer的核心技術與架構

  • 自注意力機制(Self-Attention)
    讓模型在處理序列時,動態地計算序列中每個元素之間的關聯性,使模型在訓練時具備更好的上下文理解能力與效率。

  • 多頭注意力(Multi-Head Attention)
    為了捕捉序列中不同層次和角度的資訊,將自注意力機制拆分為多個「頭」,每個頭獨立學習不同的關係(如語法、語意、位置),最後將結果合併,增強模型的表達能力。

  • 位置編碼(Positional Encoding)
    由於Transformer拋棄了 RNN,因此不具備序列順序的能力。為了理解詞語的先後與相對位置,透過位置編碼將序列中每個詞的位置資訊加入輸入,使模型能夠辨識詞語的相對和絕對位置,保持語序的語義。

  • 編碼器-解碼器架構(Encoder-Decoder)
    Transformer由多層編碼器和解碼器堆疊而成。
    編碼器(Encoder)負責將輸入序列轉換成上下文豐富的向量表示,經由多層自注意力機制等。
    解碼器 (Decoder)則根據接收編碼器的輸出,並結合目前已生成的部分序列,利用遮罩自注意力(Masked Self-Attention)機制和編碼器-解碼器注意力(Encoder–Decoder Attention)機制,最終逐步生成新的輸出序列,適用於機器翻譯、文本生成等任務。

參考資料
https://aws.amazon.com/tw/what-is/transformers-in-artificial-intelligence/
https://blogs.nvidia.com.tw/blog/what-is-a-transformer-model/


上一篇
生成式AI的核心技術:LLM
下一篇
生成式AI的應用場景
系列文
生成式 AI開發:打造聊天機器人8
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言