下圖為最知名的卷積神經網絡 1998 LeNet-5,主要是用來辨識手寫數字(MNIST資料庫 - MNIST is a now-famous data set that includes images of handwritten digits paired with their true label of 0, 1, 2, 3, 4, 5, 6, 7, 8, or 9. )。
其架構可以歸納為 [convolution layer > pooling layer(subsampling)] 二層 > [fully connective layer]三層 > activation(non-linearity)
由於特徵會出現在影像中不定位置,並且特徵是規律性的,所以可利用convolution對於local detect會比對整張影像global detect來的較有效率。
在此階段我們會使用filter,使用方式如下圖
Conolution layer的目的是將圖片中的特徵明顯化,以提高識別成功率。