iT邦幫忙

2023 iThome 鐵人賽

DAY 29
0
AI & Data

嘗試在AI世界闖蕩系列 第 29

Day 29 AI的核心應用:電腦的聽覺與視覺(R-CNN、YOLO)

  • 分享至 

  • xImage
  •  

接續昨天說的OD的兩種主要模型。


二階段的物件偵測演算法

R-CNN

  • 架構:Selective Search+CNN+SVM
  • 步驟:
    ①使用選擇性搜尋法在整個圖像內整合出2000個可能有物件存在的預選區域(RP)
    ②將這2000個尺寸大小不同的RP丟至CNN並擷取各個的RP特徵
    ③接著用SVM加以分類,辨別物件、數量、位置
    https://ithelp.ithome.com.tw/upload/images/20231010/20163102wZPVwlhUjS.jpg
    資料來源:https://scitechvista.nat.gov.tw/Article/C000003/detail?ID=b2b22689-9744-466c-a102-2fce20d7ab41
  • 問題:效率低、耗時

Fast R-CNN

  • 架構:Selective Search+CNN+ROI Pooling
  • 步驟:
    ①利用CNN一次擷取整個圖像的特徵
    ②接著將每個RP在原圖的位置映射到CNN圖上獲取自己的特徵,透過一個新創的空間金字塔池化網路(Spatial Pyramid Pooling Network)中的一個池化層,將2000個不同尺寸的RP特徵向量轉化成固定的維度向量,一次輸入給CNN
  • 問題:雖然比R-CNN快很多,但對即時需求來說還是不夠快

Faster R-CNN

  • 架構:RPN+CNN+ROI
  • 特色:利用RPN(更快速有效率提取RP特徵的CNN神經網路)加上Fast R-CNN
  • 問題:效率更高,但因為是兩階段所以對即時來說還是不夠快

一階段的物件偵測演算法

YOLO(You Only Look Once)

一種OD演算法利用單一CNN,點對點可同時一次偵測一個圖像內是否有物件、其位置與大小。
https://ithelp.ithome.com.tw/upload/images/20231010/20163102PEjut6DvzY.jpg
資料來源:https://scitechvista.nat.gov.tw/Article/C000003/detail?ID=b2b22689-9744-466c-a102-2fce20d7ab41
步驟:
①將整個圖像分割為SxS
②以CNN掃描所有格子,各個格子負責偵測自己內部是否有物件
③物件✅➜每個格子利用數個邊界框來試圖正確涵蓋所發現到的物件(此為不斷訓練學習,而預測出來的)
④利用交並集(Intersection Over Union,IOU)來選擇涵蓋正確率最高的預測邊界框:IOU(A,B)=((A∩B)/(A∪B))
IOU=1 ➜預測的邊界框與實際物件重疊率100%,完全涵蓋所要預測的物件
IOU=0.1 ➜預測的邊界框與實際物件重疊率10%,10%物件被涵蓋到而已
IOU必須大於0.5➜才會選擇來判斷物件的種類
⑤輸出位置、尺寸、分類與其為此分類的概率


參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 28 AI的核心應用:電腦的聽覺與視覺(圖像分析/分類/分割/定位、物件偵測)
下一篇
Day 30 AI的核心應用:電腦的聽覺與視覺(視頻分析、行動辨識)
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言