今天主要介紹物件辨識。
物件辨識對於人類來說並不困難,我們容易定位並分類出圖片中的物體,
但對於電腦來說,面對的是RGB像素矩陣,很難直接從圖像中得到狗和貓這樣的抽象概念並定位其位置,
再加上有時候多個物體和背景混雜在一起,所以這是一個非常熱門也很有挑戰的研究領域。
在許多年前,一些特定目標的檢測技術,
比如人臉檢測已經非常成熟,手機上就可以看到應用,
這是因為人臉相對來說是一個比較有“結構”的物件,
但是一般通用的目標檢測,效果總是不太理想。
這是一個最有名的物件辨識演算法YOLOv3的demo(目前已有v4):
他的優點是架構簡單、不僅夠準他的運算速度也很快,十分符合業界的需求。
基本能達到real-time,這很符合業界大多數應用的需求。
例如自動駕駛在高速公路上跑,時速100 km,在YOLO出現之前,
就算使用最快的Faster R-CNN,2秒處理完一張,車子已經開出去4公尺,就已經來不及煞車了。
所以算法是否能Real time 對於AIOT等應用非常重要。
而YOLO 只需要對整張圖掃描一次,這就是他命名的由來。
這是YOLOv1的系統示意圖。
流程很簡單:
輸入一張圖,經過單個CNN網絡前向計算後,
再經過非極大值抑制(NMS),就可以給出檢測結果。
YOLO特點: