一、Transformer 的主要類型
Transformer 架構最初來自 2017 年《Attention is All You Need》,之後延伸出許多變化。大致可以分成以下幾類:
1.Encoder-only(純編碼器)
• 代表模型:BERT、RoBERTa、ALBERT
• 特點:雙向編碼,注重理解語意,適合分類或抽取任務。
• 應用:
• 文字分類(情感分析、垃圾郵件判斷)
• 命名實體辨識(NER)
• 文件檢索、搜尋引擎
2.Decoder-only(純解碼器)
• 代表模型:GPT 系列、LLaMA、Mistral
• 特點:自回歸(Autoregressive),依序生成下一個字詞,擅長生成任務。
• 應用:
• 聊天機器人(ChatGPT)
• 文章生成、寫作輔助
• 程式碼生成
• 自動補全(如 IDE 的程式碼補全)
3.Encoder-Decoder(編碼器 + 解碼器)
• 代表模型:T5、BART、mBART
• 特點:輸入透過 Encoder 編碼,再由 Decoder 生成輸出,適合「輸入 → 輸出」轉換型任務。
• 應用:
• 機器翻譯(英文 → 中文)
• 文本摘要
• 問答系統(輸入問題 → 生成答案)
⸻
二、不同變體與改進
除了基本三大類,還有一些針對效能或應用場景做的改進版本:
• Longformer / BigBird:專門處理長文本,改良注意力機制,減少計算量。
• Vision Transformer (ViT):把圖片切成小 patch,視為「詞」丟進 Transformer,應用於電腦視覺。
• Multimodal Transformers:結合文字、圖片、聲音等不同模態,如 CLIP(文字 + 圖像對應)。
• Efficient Transformers:例如 Performer、Linformer,重點在降低注意力計算成本,處理大規模資料。
⸻
三、應用領域概覽
1. 自然語言處理(NLP)
• 翻譯(Google 翻譯)
• 搜尋引擎
• 情感分析
• 聊天機器人
2. 電腦視覺(CV)
• 圖像分類
• 目標檢測
• 影片理解
3. 語音處理
• 語音轉文字(ASR)
• 語音合成(TTS)
4. 跨模態應用
• 文生圖(如 Stable Diffusion + Transformer 模組)
• AI 助手(文字 + 圖片 + 語音整合)