第 16 屆 iThome 鐵人賽 (2023)
{%hackmd BJrTq20hE %}
YOLO (You Only Look Once) 是一個 one-stage 的 object detection 演算法,將整個影像輸入只需要一個 CNN 就可以一次性的預測多個目標物位置及類別,這種 end-to-end 的算法可以提升辨識速度,能夠實現 real-time 偵測並維持高準確度。
如果被教授問到說他是二維的會被電到起飛'''''
YOLO 的作法就是將輸入的影像切割成 SxS 的網格 (grid),若被偵測物體的中心落入某個網格內,這個網格就要負責去偵測該物體。而每個網格要負責預測 bounding boxes (bndBox,在 YOLO 的設計中,YOLOv1: B=2, YOLOv2: B=5, YOLOv3: B=3) 和屬於各別類別的機率 (假設有C個類別),其中對每個 bndBox 的預測會輸出5個預測值: x, y, w, h 以及 confidence。
判斷事物的好壞需要一定的評判標準,判斷分類系統的優劣自然需要一定的評判方式。作為設計機器學習系統的一個很重要的環節
YOLO 的評估指標主要有兩項 IOU 和 mAP
IOU (Intersection over Union)
即兩個 bndBox 的交集 / 兩個 bndBox 的聯集,也就是指 predict 的 bndBox與 Ground Truth 的 bndBox 的交集除以聯集,score > 0.5 效果就很優秀了
https://medium.com/ching-i/yolo-c49f70241aa7