Day 16 - 卷積神經網絡 CNN (1)-壹頁AI戰國史 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

自我挑戰組

AI 高中生的自我學習系列第 16 篇

Day 16 - 卷積神經網絡 CNN (1)-壹頁AI戰國史

12th鐵人賽 lenet alexnet vgg resnet

Harry Lin

2020-12-16 08:56:07

2720 瀏覽

分享至

歷史重要性

CNN歷史已發生，為何要花時間瞭解它?個人認為瞭解CNN歷史可以讓我們選擇以同方式解決不同問題，如下圖(來源: 成功大學連震杰教授)我們可利用較現代方式(VGG19 19層)，亦可以較古老方式 (1998 LeNet 5層或 2012 AlexNet 8層)，取決於我們擁有多少資源(電腦多強、訓練需多久......)和不同目的而定，我們一定不想殺雞用牛刀吧。

What is CNN ?

專門解決圖像問題的機器現在大多使用 CNN 來消化處理影像，其相當於眼睛的角色，用以辨識不同物體。我們可把它看作特徵提取層，可以最大利用圖像的局部信息並將局部特徵拼接起來，從而得到整幅圖的特徵。其概念類似於通過拼圖來還原圖像。原文網址

CNN 歷史-改變人類在AI的進展

從1980年代便開始快速發展的 CNN，是當今自動駕駛車、石油探勘及核融合研究的先鋒，也使我們能更快速地在醫學影像裡找出疾病和拯救生命。

來源: 成功大學連震杰教授

AI戰國時代

註:
1.下文中的專有詞，之後文章會有說明，此處是快速整理供日後參考
2.MNIST(Modified National Institute of Standards and Technology) : 手寫數字資料庫 0-9. (60,000 training samples, 10,000 testing samples)
3.ILSVRC(ImageNet Large Scale Visual Recognition Challenge) : 年度圖像識別挑戰賽，挑戰物體檢測和圖像分類的算法。有十種目錄供辨識，目的是使研究人員可以比較各方的檢測速度，另一個目的是測量電腦視覺辨識的發展進度。使用資料 ImageNet (1,200,000 samples)

LeNet (1998, Yann LeCun)
- 數字辨識 (0-9)
- 3層Conv(卷積層)+2層FC(全連結層)
- 使用資料 MNIST
- CNN 的 Hello World
AlexNet (2012 , Alex Krizhevsky)
- 基本架構跟LeNet大致上相同可以算是LeNet的加強版，主要的新技術與應用有將ReLU、Dropout、LRN加到model中，並用GPU來加快training效率以及data augmentation增加訓練資料集
- 拿下ILSVRC”12的冠軍讓CNN重返榮耀，其將top-5 error減少至16.4%
VGG (2014 , Visual Geometry Group)
- AlexNet的延伸版CNN model，其架構仍為Conv layer + FC layer，特點是conv kernel皆為3x3奠定了使用3x3 conv kernel的趨勢，而pooling kernel為2x2
- 最廣為人知的是VGG-16、VGG-19 (層數為16或19)
- ILSVRC top-5 error減少至7.3%
GoogLeNet (2014 , Going Deeper with Convolutions)
- 雖然因為較複雜所以較沒有VGG那麼受歡迎
- 要改善神經網路準確度最直覺的方式就是直接加大神經網路，藉此增加可能找到最佳參數的機會，然而這個直觀的解法是相當簡單也相當困難的，為什麼會這麼說呢？這是因為當你加大神經網路時，同時伴隨著參數過多會導致過擬合(over-fitting)的問題，因此有技巧的加大神經網路就變成重要的議題。GoogLeNet就是基於此概念催生出的神經網路，不僅網路架構變得更深，同時也變得更寬，這發展出的架構被命名「Inception」
- 22 層
- ILSVRC top-5 error減少至6.7%
ResNet (2015 , Deep Residual Learning for Image Recognition)
- 超過 150 層
- 發現電腦負擔過重
- ILSVRC top-5 error減少至3.6% , 比人類辨識力更強 (人類是5.1%)