[Day10] Encoder-Decoder 模型：T5 / BART 與 Seq2Seq 預訓練

2025 iThome 鐵人賽

DAY 10

生成式 AI

從上下文工程到 Agent：30 天生成式 AI 與 LLM 學習紀錄系列第 10 篇

17th鐵人賽

ruiyang0630

團隊nutc imac

2025-09-24 21:59:08

55 瀏覽

分享至

Encoder-Decoder

　　前面我們介紹過了 Encoder-only（BERT）專門用於理解，適合 NLU 的任務；Decoder-only（GPT）專門用於生成，適合 NLG 任務，但其實也有很多任務需要同時「理解輸入」和「生成輸出」，例如機器翻譯、摘要生成、問答系統，這些任務本質上就是一個序列到序列 (Seq2Seq) 的問題，因此最適合的架構就是 Encoder-Decoder。

BART(雙向理解 + 自動回歸生成)

　　2019 年 Facebook 提出 BART (Bidirectional and Auto-Regressive Transformers)，它結合了 BERT 與 GPT 的優點，Encoder 部分使用 BERT 的雙向理解方式，Decoder 部分使用 GPT 的自動回歸生成方式，這樣的設計讓 BART 能兼顧「深度理解」與「高品質生成」，成為一個強大的 Seq2Seq 模型。

Denoising Autoencoder

　　BART 的預訓練任務設計為 Denoising Autoencoder，此方法會在輸入中故意加入噪聲（可能是刪掉片段、打亂順序、替換字詞等方法)，再要求模型在訓練中要恢復成原本的乾淨句子，這樣的訓練方式，讓 BART 可以更好的掌握語意與上下文，能應對各種 Seq2Seq 任務，尤其在摘要生成與翻譯任務中表現特別突出。

T5(把所有任務都轉換成「文字到文字」)

　　2020 年 Google 發表了 T5 (Text-to-Text Transfer Transformer)這個模型，提出一個大膽的想法，讓 NLP 的所有任務都可以用「文字到文字」的形式來統一表達，利用 task prefix 的方式，讓 T5 能在一個統一架構下，同時處理分類、生成、翻譯等多項任務。
　　和傳統 Transformer 比較，T5 在一些細節上也做了改進，像是將原本的 LayerNorm 換成 RMSNorm，讓訓練更加穩定，除此之外，T5 還使用了一個超大型數據集 C4 (Colossal Clean Crawled Corpus) 作為訓練語料，C4 是來自 Common Crawl 的網頁資料，經過大規模清理與過濾後，形成約 750GB 的文本，成為當時最乾淨且規模最大的開源文本語料之一，確保模型能學習到豐富而多樣的語言知識。

文本分類

輸入：sst2: 這部電影真的很好看！
輸出：positive

機器翻譯

輸入：translate English to German: I love NLP
輸出：Ich liebe NLP

摘要生成

輸入：summarize: 這篇文章內容很長……
輸出：一句話摘要

今日總結

Encoder-Decoder 架構是專門用於處理 Seq2Seq 任務（翻譯、摘要、QA）。
T5：用「文字到文字」的統一框架，把所有 NLP 任務都轉換成一個格式。

[Day9] Decoder-only 模型：GPT 與自動回歸模型

[Day11] 什麼是大型語言模型（LLM）？

系列文

從上下文工程到 Agent：30 天生成式 AI 與 LLM 學習紀錄共 12 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

12002 篇

完賽人數

106 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽 17th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react

IT邦幫忙

從上下文工程到 Agent：30 天生成式 AI 與 LLM 學習紀錄系列 第 10 篇