iT邦幫忙

2023 iThome 鐵人賽

DAY 30
0
AI & Data

嘗試在AI世界闖蕩系列 第 30

Day 30 AI的核心應用:電腦的聽覺與視覺(視頻分析、行動辨識)

  • 分享至 

  • xImage
  •  

視頻分析

追蹤物件動態的軌跡。
分為:
➊物件追蹤Object Tracking(OT)

  • 一種技術用來追蹤視頻內物件的軌跡。
  • 步驟:
    1.利用物件偵測來偵測第一則影像內物件的種類、數目、位置等相關資訊,並給予其唯一的辨識碼。
    2.在之後的每一幕部段追蹤各個辨識碼的軌跡。
  • 架構:https://ithelp.ithome.com.tw/upload/images/20231012/20163102oDt8EbFUzl.jpg
    ①以移動距為導向的物件追蹤演算法:質心追蹤法Centroid Tracking
    每個物件的新識別碼尋找上一幀畫面內與其最靠近的物件
    步驟:
    1.利用Fast R-CNN or YOLO來計算圖像內每個物件邊界框的中心座標位置作為質心。
    2.計算前後畫面每個物件質心間的距離。
    3.將前後畫面最近距離的物件賦予相同的識別碼。
    優點:計算簡單、適度快
    缺點:物件多交錯重疊導致識別碼容易出錯

②同時考慮移動距離和特徵相似性的物件追蹤演算法:Deep SORT(Simple Real Time Tracking)
避免了①的缺點,除了計算距離外,搭配特徵像不像的考慮。
融合了兩個度量方式來追蹤視頻內多個物件的軌跡:
1.移動矩陣Motion Matrix:計算物件前後畫面質心距離。
2.外表矩陣Appearance Matrix:計算物件移動後相似度最高的邊界框。
➋行為辨識Behavior Recognition=動作辨識Action Recognition
搭配誤差加權求和得最少的微物鑑駔可能得移動軌跡。

③聯合偵測與嵌入模型Joint Detection Embedding(JDE):單階段的物件追蹤架構
同時整合第一階段(物件偵測模式偵測物件位置大小種類)與第二階段(用距離或相似性來判斷前後畫面哪個特徵質最相似),並預測與輸出視頻內所有物件的資訊與識別碼。


行動辨識Action Recognition=行為辨識Behavior Recognition=影片分類Video Classification

利用圖像辨識、物件偵測、物件追蹤技術,對一段影片內物件的特徵與軌跡的分析,來了解其行為。
類別:

  1. 行動依動作的大小:手勢、行動、活動。
  2. 行動依參與角色不同:人與物、人與人、人自己的互動。

應用:

  1. 商店管理
  2. 工廠員工管理
  3. 運動姿態分析
  4. 交通安全管理
  5. 保全安防
  6. 場地安全
  7. 機器人的互動
    優點:大規模的監控、即時快速反應
    偵測機制:
    ①圖像的特徵Image Feature=空間流特徵Spatial Stream Feature
    各種動作經由CNN學習,使機器了解這些動作的特徵。
    Key Frame關鍵幀:行為辨識透過不斷的學習,選出判斷一個行為的一些代表動作特徵與其圖像幀。
    ②動作的特徵Action Feature=時間流的特徵Temporal Stream Feature
    依據後續連續動作(動作、方向等),透過光流Optical Flow將三維的運動投影至二維圖像來了解動作,避免只選用一兩幀圖像無法精確判斷動作的問題。
    ③骨架的特徵Skeleton Feature
    利用不同關鍵點的移動,將其製程幾何圖向來了解人類的動作與行為,內容包含:
    1.空間訊息
    衡量動作相關關節的節點與鄰近關節節點彼此之間連線所構成的幾何圖形。
    2.時間訊息
    衡量不同時間內每個關節點移動的光流軌跡Optical Flow,利用CNN、GCN、RNN、LSTM來衡量與表示。

模型:

  1. 單流卷積神經網路Single Stream CNN Model:單幀行為辨識、多幀行動判別。
  2. 雙流卷積神經網路Two Stream CNN Model:空間流+光流,來抽取多幀圖像特徵與捕捉不同時間序列中人類動作的變化。
  3. 區隔時間流網路模式Temporal Segment Network Model(TSN):將真實影片依相等時間區隔切割成N個片段,接著從每個片段中隨機稀疏取樣,再做②來判,最後平均or加權平均整合出最後的判斷。
  4. C3D模型:利用3D的CNN,直接處理影片。

參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 29 AI的核心應用:電腦的聽覺與視覺(R-CNN、YOLO)
下一篇
技術篇 Day 1-Iris_classification
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言