今天讀的是 2025 年期刊文章 “Human activity recognition: A review of deep learning-based methods”[1]。人類活動識別(HAR)是電腦視覺與人機互動的重要基石,從健康監測、智慧家居到安全監控皆有廣泛應用。
本文聚焦三個問題:
回顧範型:本文屬敘述性回顧,重在技術演進與設計脈絡,非量化型 meta-analysis。
主題式檢索:聚焦深度學習在 HAR 的近年研究,涵蓋電腦視覺主流會議與期刊與相關應用領域。
三維度分類:
評估觀點:彙整代表性工作的準確率與計算效率/部署可行性於公開資料集(如 UCF101、HMDB51、Kinetics、NTU RGB+D)。
端到端成主流;預訓練與注意力系統性受用
時空建模是 HAR 的核心難題
骨架序列 × GNN 崛起
多模態融合帶來穩健性
實際應用三難題
HAR 的近年進展可歸納為三條主線:端到端時空表徵取代手工特徵、骨架 × GNN 與多模態融合提升穩健性,以及圍繞即時性/隱私/可解釋的部署工程。實務上,與其追逐單點 SOTA,不如在模型、資源、場景約束間拿捏平衡,建立可持續運維的系統。
[1] S. J. Dutta, T. Boongoen, and R. Zwiggelaar, “Human activity recognition: A review of deep learning-based methods,” IET Computer Vision, 2025, Art. no. e70003, doi: 10.1049/cvi2.70003.