這應該是最後幾篇reid論文XD
OSNet:Omni-Scale Feature Learning for Person Re-Identification
我們知道reid是一個很難的問題,因為:
因此model需要學到“有鑑別力的”特徵,並且要能適應多種尺度的情況。
本文主要提出了一個能多尺度融合的網路結構,概念如下圖
R= Receptive field size
具體做法是用多個3x3去組成[5x5,7x7..]等等更大的Receptive field,
可以節省參數量,
Lite 3x3是使用Depth-Wise conv進一步減少參數。
用不同大小Receptive field去組成一個block,
最後再用本文提出的aggregation gate (AG)把feature maps fusion起來。
AG的用途是希望能動態的學習每個feature maps的權重方式,判斷要用哪個尺度的特徵。
這裡的G是一個小型網路,由GAP, MLP, RELU, FC, sigmoid依序組成
並且AG是共享的,所以也更好地互通特徵。
整體網路結構,與其他backbone相比輕量許多
OSNet在大部分的Benchmark都取得STOA的表現