Introduction
我們使用 MNIST 資料集訓練一個捲積神經網路。
捲積神經網路(Convolutional Neural Network, CNN / ConvNet),是一種前饋人工神經網路,與多層感知器(MLP)相似。
自然場景中,我們透過形狀、大小和顏色來辨識不同物體,而這些物體通常由邊緣(egdges)、角(conrner)、顏色(colors)區塊等基礎元素組成。
特徵檢測通常使用不同的檢測器,邊緣檢測、角檢測、顏色檢測的結合來識別,實現電腦視覺的圖像解讀,例如對象分類、區域檢測、場景描述。
檢測通常是透過濾波器(fileter)做預先處理,濾波器是一組數學函式,常見的有高斯(Gaussian)、拉普拉斯(Laplacian)、Canny。
圖像輸入濾波器(fileter)後,輸出圖像中的邊緣(egdges)、角(conrner)、顏色(colors)區塊等基礎元素,通過非線性激活函式轉換以模擬神經元。
卷積神經網路,提供了一種機器學習的濾波器方法,而不是指定一個的數學模型。
機器學習的方法,以訓練濾波器(fileter)的權重替代訓練全連接層(Fully connected layer)的權重,大幅的減少需要訓練的權重數量。
卷積神經網路的概念已經被證明和大腦中的視覺皮層有相似的部分。
視覺皮層上有一區域稱為視覺感受野(receptive field, RF)在收到刺激時會做出反應,等效於濾波器(fileter),常見的卷積神經網路(Convolutional Neural Network, CNN / ConvNet)如 AlexNet、VGG、Inception、ResNet 都有相同的概念。