歡迎回到我們的 30 天人臉技術探索之旅!在上一個主題中我們介紹了 Headpose 這個人臉 3D 資訊,可用於預測人往那一個方向看。但你可能會有一個問題是要更精準的話不是看人眼看的位置或者方向更準嗎?答案是的!於是今天,我們將探討人臉技術中一個很重要的主題--眼動追蹤技術中的一個重要主題——眼神檢測(Eye Gaze Detection)。我們今天會給大家一個 Overview,明天開始會跟大家仔細介紹技術細節
眼神檢測是指通過追蹤和分析使用者視線的方向,以確定他們在觀看螢幕或視頻中的何處。這是一個重要的研究領域,尤其在人機交互和心理學研究中,可以提供有價值的信息。
在深入探討眼神檢測方法之前,我們先來看一下一些常見的眼動追蹤資料集,如下圖:
這些資料集通常包含了不同場景下使用者的眼動軌跡,提供了訓練和評估眼神檢測模型的數據。而其中幾個知名的資料集如下:
1.MPIIGaze Dataset: 由德國馬克斯普朗克人類發展研究所(MPII)提供,包含多個受試者在自然環境中的眼動數據。
2.UT Multiview Dataset: 這個資料集包含了在多個視圖中使用者的眼動數據,提供了更具挑戰性的場景。
3.GazeCapture: 由斯坦福大學提供,是迄今為止最大的眼動追蹤數據集,包含數萬個使用者的眼神數據。
這些資料集為眼神檢測算法的訓練和評估提供了基礎。而大家是不是觀察出來了似乎每個資料集的照片都長不一樣,那是因為每個資料集想強調的都不一樣,我們將於接下來的章節介紹~
視線檢測方法通常可以分為基於特徵的方法和基於深度學習的方法。
基於特徵的方法
1.1 特徵提取
傳統的眼神檢測方法通常使用基於特徵的技術,如Haar-like特徵或HOG(Histogram of Oriented Gradients)特徵,來檢測眼睛的位置。這些方法依賴於手工設計的視覺特徵,並使用機器學習算法進行分類。
1.2 Gaze estimation
在檢測到眼睛位置後,透過估計使用者的視線向量,可以預測使用者注視的位置。這涉及到將眼動軌跡映射到實際的視線方向。
基於深度學習的方法
2.1 Convolutional Neural Networks (CNN)
隨著深度學習的興起,特別是卷積神經網絡(CNN),眼神檢測取得了巨大的突破。使用CNN,模型能夠自動學習視覺特徵,從而更準確地捕捉使用者的眼動行為。
2.2 Recurrent Neural Networks (RNN)
考慮到眼動具有時序性,一些方法引入了循環神經網絡(RNN)來捕捉眼動數據的時間依賴性。這有助於更好地理解使用者的注視模式。
而這些方法又可以依據是否對眼球進行健模而分成以下兩種:
1.Geometry-based:亦即會對眼球3D建模,然後透過2D關鍵點預測與3D眼球進行比較得到旋轉矩陣當作視線
2.Apperance-based:直接針對眼球照片進行估計
我們將於接下來的章節介紹這些方法!
眼神檢測技術在眾多應用中發揮著重要作用:
1.人機交互(HCI): 通過追蹤使用者的注視點,設備可以更好地理解使用者的意圖,從而提供更智能的交互體驗。
2.驅動注意力機制: 在駕駛輔助系統中,通過檢測駕駛者的眼神,系統可以評估其注意力水平,提醒駕駛者保持對道路的關注。如下圖,我們可以知道駕駛員看著擋風玻璃的那一個點:
3.心理學研究: 眼神檢測用於心理學實驗,以研究人們在觀看影像、閱讀文本或進行其他任務時的視覺行為。
4.虛擬現實(VR): 在VR環境中,通過追蹤用戶的視線,系統可以實現更自然、智能的虛擬互動。
視線檢測技術的發展使我們能夠更深入地理解使用者的視覺行為,為各種應用領域提供了更豐富的信息。從基於特徵的傳統方法到基於深度學習的現代方法,視線檢測不斷演進,為人機交互、駕駛安全、心理學研究等領域帶來了新的可能性。明天開始我們將針對個別部份來逐一介紹,歡迎明晚與大家再次相見!
1.Zhang, X., Sugano, Y., Fritz, M., & Bulling, A. (2017). Appearance-based gaze estimation in the wild. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
2.Krafka, K., Khosla, A., Kellnhofer, P., Kannan, H., Bhandarkar, S., Matusik, W., & Torralba, A. (2016). Eye tracking for everyone. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
3.Recasens, A., Khosla, A., Vondrick, C., & Torralba, A. (2015). Where are they looking? In Advances in neural information processing systems.