iT邦幫忙

2023 iThome 鐵人賽

DAY 21
0
自我挑戰組

AI研究系列 第 21

YOLO 影像辨識(一): You Only Look Once (YOLO),快速而準確的影像辨識演算法。

  • 分享至 

  • xImage
  •  

YOLO的由來、演算法邏輯

YOLO是You Only Look Once的縮寫,在影像辨識中代表你只需要看一次就能辨識出圖片中的物件。傳統的影像辨識演算法,如R-CNN1或SSD2,通常需要先在圖片中產生多個候選區域,然後對每個區域進行分類和定位。這樣的過程不僅耗時,而且容易產生重複或錯誤的預測。

YOLO將圖片切分成SxS個格子,然後對每個格子預測B個邊界框和C個類別機率。每個邊界框包含了五個元素:x, y, w, h, 和confidence。其中x, y是框的中心座標,w, h是框的寬度和高度,confidence是框內包含物件的信心值。每個類別機率則表示該格子屬於某個類別的機率。最後,YOLO將這些預測組合起來,得到一個SxSx(Bx5+C)維的輸出向量。這個向量就包含了圖片中所有物件的位置和類別資訊,而且只需要經過一次神經網路的運算,因此速度非常快。

YOLO的神經網路架構是基於GoogleNet3的Inception模組修改而來,主要由24層卷積層和2層全連接層組成。YOLO使用了批次正規化(batch normalization)4來提升模型的穩定性和準確性,並且捨棄了池化層(pooling layer),以保留更多的空間資訊。YOLO的損失函數(loss function)是定義在預測的邊界框和真實的邊界框之間的差異,包括座標、大小、信心值和類別機率等方面。YOLO使用了非極大值抑制(non-maximum suppression)5來消除重複或低信心值的預測框,從而得到最終的辨識結果。

YOLO是一種先進的物件檢測方法,它能夠實現實時的高效物件檢測,並在各種應用中取得卓越的成果,包括自駕車、監控系統、人臉辨識等。這種方法的成功在於其獨特的設計和高度優化的實現。
https://ithelp.ithome.com.tw/upload/images/20231001/20162284bOUIhAa7bS.jpg


上一篇
影像辨識中的研究(四):深度學習模型
下一篇
YOLO 影像辨識(二): You Only Look Once(YOLO)的特色
系列文
AI研究30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言