iT邦幫忙

2024 iThome 鐵人賽

DAY 15
0
AI/ ML & Data

Web仔從數學角度學習 AI/ ML & Data系列 第 15

Day 15 - Web仔從數學角度學習 卷積神經網路 殘差網路

  • 分享至 

  • xImage
  •  

註:本文同步更新在Notion!(數學公式會比較好閱讀)

/ᐠ .ᆺ. ᐟ\ノ又到了快樂星期五晚上!今天來~
殘差網路(Residual Networks, ResNet)。ResNet 是卷積神經網路的一種變體,通過引入「殘差塊」(residual blocks),解決了深層網路中的訓練困難和梯度消失問題,並在許多計算機視覺任務中取得了突破性的成果。

為什麼需要殘差網路?

隨著神經網路的層數不斷增加,深層網路在理論上應該能夠學習更複雜的特徵。但當網路變得非常複雜時,會面臨兩個主要問題:

  1. 梯度消失(Vanishing Gradient Problem):在深層網路中,反向傳播過程中梯度可能變得極小,導致前面的層無法有效更新參數,這使得網路無法學習到有用的表示。
  2. 退化問題(Degradation Problem):隨著網路深度增加,準確率反而下降,並非單純的「越深越好」。即使我們在淺層網路的基礎上疊加更多層,也無法改善結果,這是因為更深的網路可能難以訓練。

為了解決這些問題,殘差網路(ResNet) 引入了一種「殘差學習」機制。


殘差學習的數學表達

ResNet 的核心思想是:與其讓每一層直接學習輸入到輸出的映射,我們讓每一層學習殘差,即輸入和輸出的差異。數學上,可以將每一層的學習目標表達為:
https://ithelp.ithome.com.tw/upload/images/20240927/20168898XZvjJep54P.png
即使卷積層的殘差學習效果不理想,網路也至少可以直接傳遞輸入,這樣可以確保模型的性能不會因為層數過深而下降。
https://ithelp.ithome.com.tw/upload/images/20240927/20168898SYtWmflwK3.png
這樣的設計使得殘差網路可以方便地疊加更多層而不會遭遇退化問題


殘差網路中的數值優勢

殘差學習 帶來了許多數值優勢:

  1. 解決梯度消失問題:由於引入了快捷連接(skip connections),反向傳播時,梯度可以通過這些快捷連接直接傳遞到前面層,避免梯度在傳播過程中消失。因此,網路可以更好地訓練,即使層數非常深。
  2. 更容易訓練深層網路:由於每一層只需學習輸入與輸出的差異,這使得模型更容易優化,不再需要直接學習複雜的非線性映射。
  3. 簡單但高效的結構:ResNet 的結構非常簡單,只有卷積層和快捷連接,卻能有效提升性能,這使得它能夠方便地應用於各種深度學習任務。

ResNet 的深度和性能

ResNet 是第一個成功訓練超過 100 層的神經網路架構。其深度可以根據應用需求進行調整,常見的 ResNet 變體包括 ResNet-18、ResNet-34、ResNet-50 和 ResNet-101 等,數字表示網路中的層數。

  • 在 2015 年 ImageNet 比賽中,ResNet 獲得了分類任務的冠軍,錯誤率低於 5%,展示了其強大的表現能力。
  • ResNet 的設計理念還影響了後來許多深層網路的設計,如 DenseNet、Inception-ResNet 等。

數學角度:殘差網路的梯度傳播

殘差網路中的梯度傳播公式可以分解為兩部分:殘差的梯度和快捷連接的梯度。
https://ithelp.ithome.com.tw/upload/images/20240927/20168898ucQdJSe5fO.png
證明梯度可以通過快捷連接直接傳回,從而避免梯度消失。


殘差網路在 AI/ML 中的應用

  1. 圖像分類:ResNet 在各種圖像分類任務中表現出色,如 ImageNet、CIFAR-10 等數據集。
  2. 目標檢測:Faster R-CNN 等目標檢測網路中也採用了 ResNet 作為主幹網路來提取圖像特徵。
  3. 語音處理:ResNet 的殘差結構也在語音處理任務中得到應用,例如語音識別和語音合成。

總結

殘差網路(ResNet) 透過殘差學習機制,成功解決了深層神經網路中的梯度消失和退化問題。其簡單但高效的設計使得它成為許多深度學習任務中的首選架構。從數學角度,殘差網路通過快捷連接來保證梯度的有效傳播,從而提高了深層網路的可訓練性。
https://ithelp.ithome.com.tw/upload/images/20240927/20168898bERhLpsbbM.png


上一篇
Day 14 - Web仔從數學角度學習 卷積神經網路 數值
下一篇
Day 16 - Web仔從數學角度學習 遞迴式神經網路RNN
系列文
Web仔從數學角度學習 AI/ ML & Data30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言