導論
1.1 物件偵測現況:應用在多物件追蹤、自動駕駛等,通常執行的設備會是移動端CPU、GPU或是NPU。
1.2 目的:本文希望提出可以同時支援移動端的GPU與雲端GPU設備的物件偵測模型。
1.3 本文優化方向
實時物件偵測
2.1 總結優秀模型特徵
2.2 模型重新參數化(可分成模型、模塊集成)
模型集成
模塊集成
2.3 模型縮放
模型結構
3.1 擴展高效層聚合網路
VoVNet
CSPVoVNet
ELAN:為了設計一個高效的網路,ELAN使用的策略為「控制最短最長梯度路徑,使更深的網絡可以有效地學習和收斂」
E-ELAN
3.2 基於串聯的模型縮放方法
訓練模型的bag-of-freebies策略
4.1 計算重新參數化卷積層
RepConv結合PlainNet:發現PlainNet沒有identity connection,能順利引入RepConv。
RepConv結合ResNet:若RepConv identity connection與ResNet shortcut connection合併運算會降低準度。
RepConvN結合ResNet:RepConvN為RepConv去除identity connection,本文採用此架構。
4.2 標籤分配策略
深度監督:在網路中間層添加輔助頭( Auxiliary Head),使用輔助損失引導淺層網路權重的訓練,而負責輸出的稱為主導頭(Lead Head)。
主導頭引領標籤分配
獨立分配:兩者單獨與自己的ground truth運算進行標籤分配。
Lead Head引導分配:利用Lead Head與自己的ground truth運算得到的軟標註,較能表達資料與ground truth關聯。再將此關聯用於輔助頭訓練。
Coarse-to-fine主導頭引導分配
4.3 Other trainable bagoffreebies
Batch normalization:在推論階段,將批標準化(BN)層連接到卷積層,將BN層的平均值與標準差整合至卷積層的偏差和權重內。
YOLOR的隱式知識:模型推論時,將隱性知識運算減化為一個向量,再將此向量整合至前一層或後一層的卷積層偏差和權重內。
EMA Model:Mean Teacher使用指數移動平均權重,優化了所有層的輸出。
實驗比對
5.1 與其他先進的物件偵測模型比對
與YOLOv4、YOLOR Baseline比對
與SOTA算法比對:與所有SOTA算法相比,均有推論速度與準確度的優勢。
5.2 Ablation study
複合縮放方法:與僅縮放Width或Depth的模型相比,複合縮放均顯著提升準確度。
計畫重新參數化模型:此處的RepConv指RepConvN。
基於串聯模型:使用RepConvN替換不同位置3x3卷積層進行驗證。
基於殘差模型:本文將Dark Block與CSPDark Block中的1x1與3x3卷積層對調,以符合計畫重新參數化策略。RepRCSP有顯著的準確度提升。
輔助頭的輔助損失
以YOLOv7-E6作為Baseline,對三種標籤分配標略進行比較。其中Coarse-to-fine主導頭引導分配表現最佳。
Coarse Label有無優化上限:有優化上限 > 無優化上限
Coarse-to-fine與 partial coarse-to-fine:Coarse-to-fine > partial coarse-to-fine
讓我們繼續看下去...