【Day 9】辨識圖像的神工利器-卷機神經網路數學證明

2024 iThome 鐵人賽

DAY 9

AI/ ML & Data

從零開始學AI：數學基礎與程式碼撰寫全攻略系列第 9 篇

16th鐵人賽

austin70915

2024-09-23 15:44:21

1145 瀏覽

分享至

前言

在昨天，我們可以看到針對MNIST手寫辨識資料集，我們需要將其圖像轉換成一維的資料。但是這樣的做法在實際應用中顯得不太實際，因為大部分圖像都是彩色的，所以對於其資料維度應該是(batch_size, 寬, 高, 色彩通道)。假設我們的輸入是一張28x28的彩色圖像，這樣在給深度神經網路進行運算時，會產生28x28x3的輸入特徵。

這時就會導致輸入特徵越來越多，就會導致模型運算變得更加複雜，這樣子我們必須增加模型的參數量、深度，甚至增加資料集的數量，但資料蒐集的難度高標註的時間也要非常久，因此最合適的方法應該是我們需要使用其他模型來幫助我們達到目標，因此在今天我會告訴你卷積神經網路(Convolutional Neural Networks, CNN)在進行分類任務時常用的手段。

卷積神經網路(Convolutional Neural Networks)

卷積神經網路是一種專門用來處理圖像資料的模型。它的概念是通過卷積核(Kernel)來提取不同層次的特徵。一個卷積神經網路通常包含卷積層、池化層以及全連接層。現在讓我們來看看在一個卷積神經網路中進行了哪些操作吧。

卷積層(Convolution Layer)

在卷積層(Convolution Layer)中其最重要的目的是通過卷積核來提取圖像中的局部特徵，以找出如邊緣、角點和更復雜的圖像結構，而其作法就是通過不斷的滑動卷積核並與其進行阿達瑪乘積(Hadamard product，符號⊗)，我們可以看到下圖中的做法。

在上圖中我們可以看到原始圖像會與卷積核進行運算，並且通過設定步長 (Stride)來滑動卷積核的位置以產生新的圖像。不過我們會發現當卷積核滑動到底部和右邊邊緣時，卷積核的一部分會超出原始圖像的範圍。為了解決這個問題，我們需要使用填充 (Padding)技術。

其中最常用的方法是零填充 (Zero Padding)，即把超出邊界的部分補上0。這樣可以保持原始圖像的尺寸，從而產生最終的特徵圖 (Feature Map)。而對於卷積層我們可以用以下公式表達(I為輸入的圖像特徵、K為卷積核矩陣)

而通過應用不同的卷積核，每一層卷積層將會擷取到更加抽象和高階的特徵，而對於其特徵圖的長與寬我們則可以代入以下公式計算(k為卷積核大小、d卷積核之間的間隔數、s為步長、p為是否要進行填充)

池化層(Pooling Layer)

接下來是池化層（Pooling Layer），這一層的作用是為了減少圖像的空間維度，通常採用最大池化（Max Pooling）或平均池化（Average Pooling）來進行運算。

而在池化層中透過設定步長來選擇對應的目標範圍，並在這個範圍內計算平均值或找出最大值。有這一層的原因是我們通常會將一張圖像經過多次運算轉變為高維度的特徵圖，因此透過減少運算量可以防止過度擬合（Overfitting）的問題。在這裡我們可以來看到其數學公式如下(上公式為最大池化、下公式則為平均池化):

過度擬合是指模型在訓練集上表現良好，但在驗證或測試集上表現不佳的一種現象。這表示模型的複雜性過高，使其過分記住訓練集上的特徵，反而讓模型失去了泛化性。因此在設計適當的模型大小與深度時，必須參考資料集的大小，才能達到較佳的模型效果。

同樣的該層的特徵圖的長與寬我們同樣的可以使用卷積核的計算公式進行運算。

全連接層(Fully Connected Layer)

在我們討論了卷積神經網路的兩個層級之後，你可能會問為什麼需要計算每一層的輸出長度和寬度。這樣做的重要原因在於，卷積層和池化層主要負責提取圖像的特徵，而實際的計算工作大多數是在全連接層中進行。因此我們需要知道在設計時設定的特徵圖數量，以及經過一連串卷積層後的圖像尺寸。這樣我們才能將這些數據攤平(Flatten)，讓全連接層進行運算。前面的章節中我們已多次講解過全連接層的計算公式，所以在這裡就不再詳細說明。

交叉熵損失（CrossEntropyLoss）

在昨天的內容中，我們使用了 交叉熵損失（CrossEntropyLoss） 函數，該函數主要應用於分類任務。其數學公式相對簡單，通過真實標籤的概率分佈 p(i) 與預測的概率分佈 p\hat(i) 進行運算，並對每一類進行 log 運算後相乘。我們通過這種方式懲罰預測概率與真實標籤（標籤值為 1）的差異，同時對其他類別的預測概率與 0 之間的差異進行處理。

如下圖所示的公式是用於多分類預測問題時的交叉熵計算。在這種情況下我們會使用 softmax 激勵函數將預測結果 y\hat 轉換為概率分佈，而不僅僅是直接的數值。至於 p(i)，它的取值是 1（對應真實標籤）或 0（非真實標籤）。