iT邦幫忙

2023 iThome 鐵人賽

DAY 2
0

所以,人體動作辨識要怎麼辨識?你先回想一下,你通常是怎麼知道一個人正在做甚麼動作的。你知道一個人在打羽球,因為他拿著羽球拍、他人在羽球場、他手在揮拍、他揮拍的方式就是在打羽球......,甚至你可以知道他殺球、吊小球。回想一下你是怎麼辨識這些動作的,電腦也是一樣,只是把你的常識轉換成更數學的方式去學習了。

人體動作辨識(Human Action Recognition, HAR)

在電腦視覺的機器學習應用中,依任務目標可以分成許多不同類型:影像分類(Classification)、物件追蹤(Tracking)、物件偵測(Object Detection)、語義分割(Samentic Segmentation)、姿態辨識(Pose Estimation)等等。我們的主題HAR算是跟姿態辨識比較有相關,但當然也會使用到以上其他技術。HAR主要方法依照輸入資料,可分為以下幾種:

  1. 基於影片/影像(video-based/RGB-based): 基於從影像中提取的特徵,如色彩或光線等,進行人體動作辨識。缺點是容易受外在環境影響,如相機角度、目標物大小、雜亂背景等因素,也會因此造成模型計算量較大。
  2. 基於骨架(skeleton-based): 透過偵測到的人體關鍵點(keypoint),進行人體動作辨識。人體關鍵點(keypoint)可透過姿態偵測模型取得。使用骨架進行動作辨識,相較於RGB-based的方法可大幅降低運算量問題,達到即時辨識的效果。其缺點則是需要一額外的預訓練姿態偵測模型以取得人體骨架,且結果會受該模型的準確率影響,也因為欠缺紋理和色彩資訊,使骨架動向相像的動作會難以辨別。
  3. 基於感測器: 透過穿戴(手環)或非穿戴(毫米波雷達)裝置蒐集人體的生理資訊,加以分析後進行人體做作辨識的研究也很多,尤其是人類已被刀劍神域追趕過去QQ 這個應該就類似蘋果新發表的手錶可以偵測動作幫你開音樂或接電話那樣。不過感測器應該不會納入我的守備範圍,所以這部份不會討論。
  4. 多模態(cross-modal): 尤其因為生成式技術越來越厲害,現已有許多研究嘗試用Transformer技術去結合以上模態的資料進行辨識,以達到兩者的互補。然而,要從多種模態資料中提取特徵並整合成有用的資訊,是一個非常複雜也難以解釋的過程。

此外,人體動作辨識通常會加入「時序(Temporal)」的概念,也就是動作進行的時間關聯性。例如下面那張圖,你可以辨別他正在進行抱石。但要你辨別他現在在往上爬還是摔下來,你很難用一張照片就能了解。
https://ithelp.ithome.com.tw/upload/images/20230916/20140659qTvp2yIKop.png

以上是一些人體動作辨識的基本背景,希望沒有太過學術。因為未來會以深度學習也會用到PyTorch,明天要先建置環境。


上一篇
Day 00: Intro
下一篇
Day02: 環境建置(Ubuntu20.4+Anaconda+CUDA11.6+PyTorch1.3)
系列文
電腦視覺與人體動作辨識3
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言