預訓練模型是什麼？BERT、ResNet介紹

2025 iThome 鐵人賽

DAY 24

生成式 AI

《AI 新手到職場應用：深度學習 30 天實戰》系列第 24 篇

17th鐵人賽

liao07211270

2025-10-08 01:17:35

155 瀏覽

分享至

當人工智慧（AI）逐漸滲透我們的生活，你可能會注意到：
無論是語音助手 Siri、Google 翻譯，還是影像辨識、自動駕駛，背後的模型都不再從零開始訓練。
這正是「預訓練模型（Pre-trained Model）」的力量。

在過去，開發一個 AI 模型必須收集大量資料、從頭設計神經網路並耗時數天甚至數週進行訓練。
然而現在，工程師可以直接使用在龐大資料集上訓練好的模型，
只需針對特定任務進行微調（Fine-tuning），就能快速達成高準確率的結果。

這種方式不僅節省時間與成本，更讓中小型開發團隊也能擁有「大公司級」的 AI 能力。
而在今天，我們就要深入理解這個改變了整個 AI 生態系的技術概念。

(因為這篇的原文被系統刪掉了，我也不知道為什麼，所以這篇是重打，可能會很敷衍)

什麼是預訓練模型（Pre-trained Model）？

預訓練模型是一種「已經被訓練過」的深度學習模型，
它事先在大規模的資料集上學習了通用的特徵與結構。
這種模型可以理解為「學會語言、圖像或聲音的通用知識」的系統。
當我們要解決新的問題時，只需要在這個基礎上進一步訓練，就能達成不錯的效果。

舉個例子來說：
在影像辨識中，預訓練模型可能已經學會辨識線條、邊緣、顏色與形狀；
而在自然語言處理（NLP）中，它可能已經理解詞彙之間的語法與語意關係。

因此，預訓練模型就像是一位「已經修完通識課」的學生，
你只需要再教他你的專業領域內容（微調），他就能快速上手。

參考資料:
https://maxc-0818.medium.com/%E5%BF%AB%E9%80%9F%E7%90%86%E8%A7%A3pre-trained-model-transfer-learning%E4%B9%8B%E9%96%93%E5%B7%AE%E7%95%B0-%E4%B8%A6%E4%B8%94%E5%AF%A6%E4%BD%9Cpytorch%E6%8F%90%E4%BE%9B%E7%9A%84pre-trained-model-4a246a38463b

預訓練的資料來源與過程

為了讓模型具備「通用理解能力」，研究人員通常會在極為龐大的資料集上訓練。

比如說以下這兩個舉例：

-ImageNet：

包含超過 1400 萬張已標註的圖片，
是視覺模型如 ResNet、VGG 的主要訓練資料集。

-Wikipedia + BookCorpus：

BERT 模型的主要語料來源，涵蓋數十億字詞。

預訓練階段的目的，
是讓模型學習如何抽取出有效的「特徵表示（Feature Representation）」，
換句話說，模型不僅記住資料，而是學會「如何看懂資料」。

在完成這個階段後，我們只需要對模型進行 Fine-tuning（微調），
讓它學習特定任務（例如情感分析、物體辨識、語音轉文字等），
就能達到優秀的表現。

為什麼預訓練模型這麼重要？

過去，我們必須自己蒐集資料、設計模型、訓練數十甚至上百小時，
才能得到一個能用的模型。
而如今，我們可以直接下載現成的 BERT、ResNet、GPT 等預訓練模型，
並利用它們進行文字分類、影像辨識、語音轉錄等任務。

這大大降低了開發門檻，也讓研究與應用的效率提升了很多。

此外，預訓練模型還能「遷移學習（Transfer Learning）」：
模型學到的知識不僅能應用在原本的任務上，還能被轉移到新的情境中。
這意味著，即使你的資料集很小，
也能透過微調在特定領域（例如醫學影像、法律文件分析）上達到高準確率。

BERT：NLP 世界的革命者

在自然語言處理（NLP）領域，
BERT（Bidirectional Encoder Representations from Transformers）是劃時代的突破。

在 BERT 出現之前，多數模型都是「從左到右」或「從右到左」讀句子，
但 BERT 的特別之處在於它是「雙向理解」的。
也就是說，它不僅理解前文，也能同時考慮後文的語意。

舉例來說，在句子：「我今天在銀行存了錢」中，
BERT 會知道「銀行」是指金融機構，而不是河邊。

這種深層的語意理解讓 BERT 在多種 NLP 任務（像是問答、翻譯、摘要）上，
都表現出了壓倒性的優勢。

BERT 的訓練過程分為兩個階段：

-預訓練（Pre-training）：用大量文字資料學習語言結構。
-微調（Fine-tuning）：針對特定任務進行調整（例如情感分析、命名實體辨識等）。

這種架構讓 NLP 任務變得更快速，也讓語意分析的準確率達到前所未有的高度。

參考資料:
https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html

ResNet：讓影像辨識再度飛躍

影像領域中，ResNet（Residual Network）則又是另一個里程碑。

傳統的深度神經網路會遇到「梯度消失」的問題，導致當層數變深時，模型反而學不動。
ResNet 的關鍵創新是引入「殘差連接（Residual Connection）」，
讓訊息能夠跨層傳遞，避免資訊在深層網路中消失。

簡單來說，ResNet 讓神經網路可以變得非常深，卻仍能穩定訓練。
這使得影像辨識準確率大幅提升，
並成為許多現代模型（如 EfficientNet、Vision Transformer）的基礎。

https://medium.com/@rossleecooloh/%E7%9B%B4%E8%A7%80%E7%90%86%E8%A7%A3resnet-%E7%B0%A1%E4%BB%8B-%E8%A7%80%E5%BF%B5%E5%8F%8A%E5%AF%A6%E4%BD%9C-python-keras-8d1e2e057de2

殘差連接(補充):

殘差連接（Residual Connection）是在深度神經網路中，
讓輸入資料「跳過幾層」後直接加回輸出的設計。

它的目的就是讓模型不必從零開始學習，而是學「該在原輸入上加上多少改變」。
這樣可以讓網路更容易訓練、不會梯度消失，
還能建立非常深的模型（像 ResNet、BERT 都用這種結構）。

預訓練模型的應用場景

預訓練模型的強大能力，使它們在幾乎所有 AI 領域都有廣泛應用，
以下就舉一些例子給大家做參考:

1. 自然語言處理（NLP）

BERT：文本分類、問答系統、情感分析。
GPT 系列：對話生成、文章續寫、翻譯。

2. 電腦視覺（CV）

ResNet：影像辨識、醫學影像分析、物件偵測。
CLIP：文字與影像的跨模態理解（例如「找出照片中有貓的圖片」）。

3. 語音與音樂

Wav2Vec2：語音辨識（Speech-to-Text）。
Whisper：多語言語音翻譯與字幕生成。

4. 多模態應用

Flamingo、Gemini 等新一代模型，
能同時處理文字、圖片與語音輸入，是未來 AI 發展的重要方向。

預訓練模型的出現，代表著 AI 不再是「從零開始」的科學，而是「在巨人肩膀上前進」的工程。
透過 BERT、ResNet 等模型，我們能快速搭建強大的應用
，無論是聊天機器人、醫學影像診斷，或社群輿情分析，
都能受惠於這些強大的基礎模型。

NLP 入門 — 從文字斷詞到向量化表示（Word Embedding）

實戰：用深度學習做垃圾郵件分類(1/2)

系列文

《AI 新手到職場應用：深度學習 30 天實戰》共 30 篇

RSS系列文訂閱系列文

2 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

《AI 新手到職場應用：深度學習 30 天實戰》系列 第 24 篇