物件偵測(Object Detection)是影像辨識中重要的一環~
物件偵測就是在照片或影片等圖像內容中,用"框"標出物件的範圍,並且分類為何種物件及附帶他是此物件的猜測機率。
前面有提過:卷積神經網路(CNN)開始大量的被運用來提升辨識率,可以用來辨識影像。
除了辨識影像,另一個研究方向就是物件的偵測,除了分類,還要框出物件的位置。而且除了框出物件的位置還要能即時的反應物件的移動。
物件偵測分為兩大類: two stage 和 one stage
現在先來認識一下在物件偵測中會經常看到的名詞吧~
Selective Search
這就是上面 two stage 中提到的演算法,透過人工的方式先把物件可能在的地方挑選出來。
Region Proposal
經由演算法所挑選出的區域,我們稱為 Region Proposal。
Bounding box
我們在文章一開始提到的"框",就是影像辨識中的 bounding box。它含有四個參數(bx, by, bh, bw
),分別代表框的 x 座標、y座標、長和寬。
Ground truth
bounding box 需要又實際的基準可以比較,而那個基準就稱為 Ground truth,可視為影像中真正包含目標物件的 bounding box。
Object classification & localization
物件的分類和定位是物件偵測中最主要的步驟,剛剛認識的 two stage 就是將這兩個步驟分開來做;而 one stage 則是將兩步驟一起處理。
*未完待續......