[D24] 物件偵測(5)

2021 iThome 鐵人賽

DAY 24

Software Development

從林到有＿Image processing系列第 24 篇

13th鐵人賽影像辨識物件偵測 yolov2

林酷妹

團隊NTUST HIS_LAB 有點東西

2021-10-09 22:20:48

1892 瀏覽

分享至

前一篇物件偵測(4)停在 YOLOv1 的缺點上，現在就要來說 YOLOv2了！

YOLOv2

YOLOv2 的論文全名為 YOLO9000：Better , Faster , Stronger
這篇文章其實包含兩個模型：YOLOv2 和 YOLO9000，不過後者是在前者基礎上提出的，兩者模型主體結構是一致的。
所以我們就來了解 YOLOv2 在幹嘛吧！
YOLOv2 改善了 YOLOv1 在偵測精確度上的缺點，在變更快速的同時也達到對小物件偵測有著更高的精確度。

可以看到 YOLOv2 相比 YOLOv1 的改進策略～

那它是怎麼做到提升定位的準確度的同時又保持分類的準確度呢？
最主要是 YOLOv2 引入了 Faster RCNN 中的 anchor box 技術！

Softmax 層對 anchors 進行分類，找到需要被檢測的 anchors
Regression 層對 anchors 的邊框進行回歸找到精確度較高的Propsoal 邊框
Propsoal Layer 再綜合兩者產生出多個 Propsoal Feature Map

如果不太清楚或是有點忘記 Fast RCNN的概念和運行，可以參考之前介紹的這篇：物件偵測(3) 複習一下!

除了上面的改進，也使用了 Batch Normalization，在 YOLOv2 中，每個卷積層後面都添加了 Batch Normalization 層，並且不再使用 dropout。
使用 Batch Normalization 後，YOLOv2 的 mAP 提升了 2.4 %。

Batch Normalization：是一個可以提升模型收斂速度，而且可以起到一定正則化效果，降低模型的過擬合的技術。

mAP：m 代表 mean，AP 是 Average Precision 的縮寫，是用來評估物體識別模型效能表現的指標。

一樣重要的還有用了 High Resolution Classifier，目前大部分的檢測模型都會在先在 ImageNet 分類資料集上預訓練模型的主體部分，分類模型基本採用大小是 224 x 224，在分類模型預訓練後，將解析度增加至 448 x 448，讓影像辨識更為精準！