iT邦幫忙

2023 iThome 鐵人賽

DAY 11
0

YOLOX: Exceeding YOLO Series in 2021

Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun

  • 中國創視科技團隊所發表。
  • 以YOLOv3(YOLOv3-SPP)為基底進行修改。
  • 並以Darknet53的YOLOv3為Baseline。
  • 個人認為本篇論文主要的亮點是提出Anchor Free的YOLO方法

論文當中有很多訓練時手動設定的一些超參數細節,因為跟技術無關,所以我就沒有花費額外篇幅進行說明。

YOLOv3 baseline:

  • 沒有使用隨機縮放裁切(RandomResizedCrop),因為發現類似於與Mosiac影像擴增方法。

YOLOX提出採用的方法:

  • Decouple Head:

    https://ithelp.ithome.com.tw/upload/images/20230926/20120310efQAqOFuIu.png

    • 作者說明在物件偵測任務上,分類任務和回歸任務會產生衝突,會對收斂速度產生影響,因此作者將分類以及回歸任務分開做。

      https://ithelp.ithome.com.tw/upload/images/20230926/20120310LcL8c0SUR6.png

  • Anchor-Free:

    • 作者認為anchor-based方法的問題:
      • 在訓練前需要事先決定anchor大小,不同domain,最佳的anchor box大小也不一樣。
      • 會增加detection head的複雜度。
    • 實作時,原先每個位置會預測三個bounding box,現在只預測一個,同樣有四個數值:grid cell左上角座標,以及Bounding Box的長跟寬。
  • Multi Positive:

    • 只輸出一個Bounding Box可能會忽略掉其貼高品質的Bounding Box;然而我們去優化這些高品質的Bounding Box可以減緩正樣本與負樣本不平衡的負面影響,並且對梯度帶來效益。因此YOLOX這邊將輸出正樣本周圍的3×3的範圍都是為正樣本。
  • SimOTA(Simple Optimal Transportation Assignment):

    • 正確解答(Groundtruth)和預測結果的cost:https://ithelp.ithome.com.tw/upload/images/20230926/20120310rBo9YzgRxb.png
    • 會在GroundTruth為中心點向四周擴大3×3或是5×5的範圍,落在該範圍內的預測結果稱為Positive,落在該範圍外的結果為Negative。
  • 使用較強的影像擴增技術:

    • Mosiac、MixUp
    • 發現使用強影像擴增技術後,採用ImageNet預訓練模型進行訓練結果不會有任何提升,因此YOLOX都是重頭開始訓練起,沒有採用預訓練模型。

實驗結果

  • 消融實驗:

    https://ithelp.ithome.com.tw/upload/images/20230926/2012031032eXzMDYYB.png

  • 與其他方法比較:

    https://ithelp.ithome.com.tw/upload/images/20230926/201203102ne5fmvaDH.png

  • 其他YOLO系列方法比較:

    https://ithelp.ithome.com.tw/upload/images/20230926/201203103GkSpWGkUO.png

文章使用之圖片擷取自該篇論文


上一篇
[DAY 10] YOLOR
下一篇
[DAY 12] YOLOv6-上篇
系列文
YOLO系列網路技術採用以及實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言