想像我們有一張用放大鏡掃視,紀錄我們觀察到的重要圖樣的圖像,這是一個很好的卷積如何運作的比喻方式。
這是使用卷積從圖像如何提取重要特徵的步驟:
我們採用kernel大小維3x3的7x7x3圖像。我們有兩組過濾器: W0與W1(展示於紅色)。過濾器W0的偏差值為1,過濾器W1沒有任何偏差值。輸出特徵展示於綠色網格。
池化層主要進行 sub sampling 的任務, 如圖所示將 convolution layer 所產生的 feature maps 進行 Max Pooling(或使用 average pooling 也可)而所使用的 stride 為 2, 可看出將 feature maps 由右上角開始取出 2*2 的 metric 中的最大值(左->右, 上->下), 此步驟目的是降低雜訊且減少參數為目標, 可提升 CNN 整體效能及降低計算量, 是不可或缺的過程。