前兩天都是直接實作,今天回來看背後的技術。
這次的Model是根據SSD(Single Shot MutilBox Detector)
然後因為一開始看不懂
所以先從最簡單的物件辨識RCNN開始看
基本上物件辨識就是在圖片中找到物體所在位置並標出類別
簡單來說有兩件事要做
所以就有RCNN
簡單來說就是先挑好候選的框框
只對候選的框框去算分類與得分
至於怎麼挑框框
論文上是說用的是SelectiveSearch
Selective的簡化版步驟如下
所以就有人想出偷懶的辦法
先做CNN再把選好的框框帶進去
就變成了Fast RCNN
這裡面牽扯到一個問題
就是每個框框因為不一樣大,所以論文裡說要透過ROI pooling layer去讓每個框框可以跟接下來的全連接層做連接
接下來就是更偷懶,乾脆把SelectiveSearch取消,直接把選框框的動作交給神經網路(稱為Region Proposal Network)去做,然後框框只有幾種固定比例的大小,稱之為anchors,這樣又變快了,所以也懶得取名,就叫Faster R-CNN
時間不太夠,後面打得有點草,明天再補完整一點,還要再講YOLO,才會到SSD。