[Day 13] 從 tensorflow.keras 開始的 EfficientNet 生活

13th鐵人賽卷積神經網路 efficientnet deep learning 深度學習

佑佑來了

2021-09-28 01:12:16

4947 瀏覽

分享至

0. 進度條

模型	進度
VGG Net	完成
ResNet	完成
DensNet	完成
MobileNet	完成
EfficientNet	此篇

0.1 前言

你遇過以下幾種困擾嗎？

0.2 回憶當年...

在我初學神經網路的時候，
只會暴力地把模型加深，
然後期望梯度下降法幫我解決所有問題。
因為那時大家都在這麼做。

:喂喂你能解決梯度消失的問題嗎?
:好像可耶
:太棒了! 我們再加深100層。
(ResNet-1001表示)

但是，Mingxing Tan 和 Quoc V. Le完全看不下去，
他們覺得現在大家瘋狂地加深網路根本拿石頭砸自己的腳，
就算Google研究團隊發表了一個1000萬層的網路，
然後說它有多好、多棒。
事實上，像你我一樣的小小研究員或是民間小公司，
根本就不可能有那樣的運算資源去訓練出跟Google一樣好的模型。
更別說他們有一堆~~我們拿不到的~~Data。

所以Mingxing Tan 和 Quoc V. Le重新思考模型縮放(Model Scaling)的意義，
然後提出一個超高效(efficient)的模型架構。

1. EfficientNet

這是EfficientNetB0架構，是B0~B7中最小的:

其中的MBConv6就是這個結構(如右圖):
"6"代表的是擴張通道數"6"倍。

從MBConv的結構可以看出它參考了深度可分離卷積和直連通路的設計，
其實就是「M」o「B」ileNetV2的基礎架構啦:

借鑑MobileNetV1: MBConv先透過PW卷積擴張通道數，再透過DW卷積和ReLU進行激活。
(為何要擴張: 有一說是因為低通道數的特徵圖不適合使用ReLU激活)
借鑑ResNet: 在layer input和layer output中間建立直連通路。
調整輸出通道數: 透過PW卷積調整想要的通道數