第 16 屆 iThome 鐵人賽 (2023)
{%hackmd BJrTq20hE %}
YOLO的核心思想是將物體檢測視為回歸問題,並將圖像分成一個固定的網格,每個網格單元負責預測該區域內的物體。該論文詳細介紹了YOLO的架構、損失函數和訓練過程。
YOLO的卷積網路架構是來自GoogleNet的模型,YOLO的網路有24卷積層(convolutional layer)和2層全連結層(fully connected layer),和GoogleNet不同的地方在於作者在某些3×3的卷積層前面用1×1的卷積層來減少filter數量,整體架構如下圖。
引入幾項架構重塑提高了速度和準確性。與Scaled YOLOv4類似,YOLOv7的骨架不使用ImageNet預訓練的骨架。相反,這些模型完全使用COCO數據集來訓練。因為YOLOv7與Scaled YOLOv4是由同一作者編寫的,因此架構相近。在YOLOv7的論文中引入了以下主要變化: