iT邦幫忙

2025 iThome 鐵人賽

DAY 24
0
生成式 AI

《AI 新手到職場應用:深度學習 30 天實戰》系列 第 24

預訓練模型是什麼?BERT、ResNet介紹

  • 分享至 

  • xImage
  •  

當人工智慧(AI)逐漸滲透我們的生活,你可能會注意到:
無論是語音助手 Siri、Google 翻譯,還是影像辨識、自動駕駛,背後的模型都不再從零開始訓練。
這正是「預訓練模型(Pre-trained Model)」的力量。

在過去,開發一個 AI 模型必須收集大量資料、從頭設計神經網路並耗時數天甚至數週進行訓練。
然而現在,工程師可以直接使用在龐大資料集上訓練好的模型,
只需針對特定任務進行微調(Fine-tuning),就能快速達成高準確率的結果。

這種方式不僅節省時間與成本,更讓中小型開發團隊也能擁有「大公司級」的 AI 能力。
而在今天,我們就要深入理解這個改變了整個 AI 生態系的技術概念。

(因為這篇的原文被系統刪掉了,我也不知道為什麼,所以這篇是重打,可能會很敷衍)


什麼是預訓練模型(Pre-trained Model)?

預訓練模型是一種「已經被訓練過」的深度學習模型,
它事先在大規模的資料集上學習了通用的特徵與結構。
這種模型可以理解為「學會語言、圖像或聲音的通用知識」的系統。
當我們要解決新的問題時,只需要在這個基礎上進一步訓練,就能達成不錯的效果。

舉個例子來說:
在影像辨識中,預訓練模型可能已經學會辨識線條邊緣顏色形狀
而在自然語言處理(NLP)中,它可能已經理解詞彙之間的語法與語意關係

因此,預訓練模型就像是一位「已經修完通識課」的學生,
你只需要再教他你的專業領域內容(微調),他就能快速上手。

參考資料:
https://maxc-0818.medium.com/%E5%BF%AB%E9%80%9F%E7%90%86%E8%A7%A3pre-trained-model-transfer-learning%E4%B9%8B%E9%96%93%E5%B7%AE%E7%95%B0-%E4%B8%A6%E4%B8%94%E5%AF%A6%E4%BD%9Cpytorch%E6%8F%90%E4%BE%9B%E7%9A%84pre-trained-model-4a246a38463b

--

預訓練的資料來源與過程

為了讓模型具備「通用理解能力」,研究人員通常會在極為龐大的資料集上訓練。

比如說以下這兩個舉例:

-ImageNet

包含超過 1400 萬張已標註的圖片,
是視覺模型如 ResNet、VGG 的主要訓練資料集。

-Wikipedia + BookCorpus

BERT 模型的主要語料來源,涵蓋數十億字詞。

預訓練階段的目的,
是讓模型學習如何抽取出有效的「特徵表示(Feature Representation)」,
換句話說,模型不僅記住資料,而是學會「如何看懂資料」。

在完成這個階段後,我們只需要對模型進行 Fine-tuning(微調),
讓它學習特定任務(例如情感分析、物體辨識、語音轉文字等),
就能達到優秀的表現。

為什麼預訓練模型這麼重要?

過去,我們必須自己蒐集資料、設計模型、訓練數十甚至上百小時,
才能得到一個能用的模型。
而如今,我們可以直接下載現成的 BERT、ResNet、GPT 等預訓練模型,
並利用它們進行文字分類、影像辨識、語音轉錄等任務。

這大大降低了開發門檻,也讓研究與應用的效率提升了很多。

此外,預訓練模型還能「遷移學習(Transfer Learning)」:
模型學到的知識不僅能應用在原本的任務上,還能被轉移到新的情境中。
這意味著,即使你的資料集很小,
也能透過微調在特定領域(例如醫學影像、法律文件分析)上達到高準確率。


BERT:NLP 世界的革命者

在自然語言處理(NLP)領域,
BERT(Bidirectional Encoder Representations from Transformers) 是劃時代的突破。

在 BERT 出現之前,多數模型都是「從左到右」或「從右到左」讀句子,
但 BERT 的特別之處在於它是「雙向理解」的。
也就是說,它不僅理解前文,也能同時考慮後文的語意。

舉例來說,在句子:「我今天在銀行存了錢」中,
BERT 會知道「銀行」是指金融機構,而不是河邊。

這種深層的語意理解讓 BERT 在多種 NLP 任務(像是問答翻譯摘要)上,
都表現出了壓倒性的優勢。

BERT 的訓練過程分為兩個階段:

-預訓練(Pre-training):用大量文字資料學習語言結構。
-微調(Fine-tuning):針對特定任務進行調整(例如情感分析、命名實體辨識等)。

這種架構讓 NLP 任務變得更快速,也讓語意分析的準確率達到前所未有的高度。

參考資料:
https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html


ResNet:讓影像辨識再度飛躍

影像領域中,ResNet(Residual Network) 則又是另一個里程碑。

傳統的深度神經網路會遇到「梯度消失」的問題,導致當層數變深時,模型反而學不動。
ResNet 的關鍵創新是引入「殘差連接(Residual Connection)」,
讓訊息能夠跨層傳遞,避免資訊在深層網路中消失。

簡單來說,ResNet 讓神經網路可以變得非常深,卻仍能穩定訓練。
這使得影像辨識準確率大幅提升,
並成為許多現代模型(如 EfficientNet、Vision Transformer)的基礎。

https://medium.com/@rossleecooloh/%E7%9B%B4%E8%A7%80%E7%90%86%E8%A7%A3resnet-%E7%B0%A1%E4%BB%8B-%E8%A7%80%E5%BF%B5%E5%8F%8A%E5%AF%A6%E4%BD%9C-python-keras-8d1e2e057de2

殘差連接(補充):

殘差連接(Residual Connection) 是在深度神經網路中,
讓輸入資料「跳過幾層」後直接加回輸出的設計。

它的目的就是讓模型不必從零開始學習,而是學「該在原輸入上加上多少改變」。
這樣可以讓網路更容易訓練、不會梯度消失,
還能建立非常深的模型(像 ResNet、BERT 都用這種結構)。


預訓練模型的應用場景

預訓練模型的強大能力,使它們在幾乎所有 AI 領域都有廣泛應用,
以下就舉一些例子給大家做參考:

1. 自然語言處理(NLP)

BERT:文本分類、問答系統、情感分析。
GPT 系列:對話生成、文章續寫、翻譯。

2. 電腦視覺(CV)

ResNet:影像辨識、醫學影像分析、物件偵測。
CLIP:文字與影像的跨模態理解(例如「找出照片中有貓的圖片」)。

3. 語音與音樂

Wav2Vec2:語音辨識(Speech-to-Text)。
Whisper:多語言語音翻譯與字幕生成。

4. 多模態應用

Flamingo、Gemini 等新一代模型,
能同時處理文字、圖片與語音輸入,是未來 AI 發展的重要方向。


預訓練模型的出現,代表著 AI 不再是「從零開始」的科學,而是「在巨人肩膀上前進」的工程。
透過 BERT、ResNet 等模型,我們能快速搭建強大的應用
,無論是聊天機器人、醫學影像診斷,或社群輿情分析,
都能受惠於這些強大的基礎模型。


上一篇
NLP 入門 — 從文字斷詞到向量化表示(Word Embedding)
系列文
《AI 新手到職場應用:深度學習 30 天實戰》24
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言