iT邦幫忙

0

30天AI人臉辨識技術全攻略:從零開始到實戰應用 DAY15

  • 分享至 

  • xImage
  •  

昨天了解了歷史,今天來看看人臉檢測的概念。

人臉檢測的概念:如何在影像中自動檢測出人臉
人臉檢測是人臉辨識流程中的第一步,目的是在輸入圖像或視頻中自動識別並標記出人臉區域。這個過程不涉及辨認人的身份,而是專注於從背景或其他物體中區分出人臉。

人臉檢測技術的核心挑戰在於:

  1. 多樣性:人臉在形狀、姿勢、表情、角度、光照等方面的變化。
  2. 複雜背景:人臉與周圍背景的融合,導致檢測困難。
  3. 遮擋問題:如眼鏡、口罩等遮擋部分人臉。
  4. 人臉檢測技術的目標是快速且準確地在各種條件下找到人臉,這對下游的特徵提取和辨識十分關鍵。

常見的人臉檢測方法

  1. Haar Cascades:
    概述:Haar Cascades 是一種早期的機器學習算法,由 Paul Viola 和 Michael Jones 在 2001 年提出,使用一系列簡單的 Haar-like 特徵來檢測人臉。
    工作原理:該方法基於增量學習(AdaBoost)算法,選擇能夠最有效區分人臉和非人臉的特徵。Haar Cascades 通過構建一個特徵金字塔的層級結構(稱為“級聯分類器”),逐漸篩選出可能包含人臉的區域。
    優點:運算快速、可即時應用於低算力設備(如移動設備)。
    缺點:對光線、姿態變化及部分遮擋的魯棒性不強。

2.HOG (Histogram of Oriented Gradients):
概述:HOG 是一種基於圖像梯度分佈的特徵提取技術,尤其適用於檢測物體的邊界和輪廓。Dalal 和 Triggs 在 2005 年提出這種方法。
工作原理:HOG 將圖像劃分為多個單元,並在每個單元中計算梯度的方向直方圖。這些直方圖描述了圖像中局部區域的輪廓和紋理,適合於人臉這樣有明顯邊緣的對象。
優點:對光照和姿勢變化具有較強的穩定性。
缺點:檢測速度比 Haar Cascades 慢,並且對極端角度的人臉檢測不理想。

3.YOLO (You Only Look Once):
概述:YOLO 是一種基於深度學習的實時物體檢測模型,能同時檢測多個物體(包括人臉),在速度與準確率之間達到了較好的平衡。
工作原理:YOLO 將圖像分成網格,並針對每個網格預測該區域是否包含人臉,並輸出相應的邊界框及置信度。這使得 YOLO 能夠在單次前向傳播中檢測圖像中的多個人臉。
優點:速度快,適合即時應用;能夠同時處理多個人臉檢測。
缺點:對小型人臉的檢測可能不如其他模型準確。

4.MTCNN (Multi-task Cascaded Convolutional Networks):
概述:MTCNN 是一種基於卷積神經網絡(CNN)的多任務學習模型,專門用於同時進行人臉檢測和人臉關鍵點定位。
工作原理:MTCNN 通過三個級聯的 CNN 網絡,逐步篩選出潛在人臉區域並精確地定位五個關鍵點(雙眼、鼻子和嘴巴)。這三個網絡協同工作,能同時解決人臉檢測和特徵點定位的問題。
優點:能夠在多樣化環境下精確檢測人臉和定位關鍵點,對多角度人臉和遮擋具有較好的魯棒性。
缺點:相比於其他方法,運行速度稍慢,對硬件資源需求較高。
人臉特徵點定位:如何精確定位人臉的關鍵點
人臉特徵點定位(Facial Landmark Detection)是在人臉檢測後的一個關鍵步驟,旨在精確定位出面部的多個關鍵點(如眼睛、鼻子、嘴巴等)。這些特徵點在進一步進行人臉對齊、表情識別或人臉分析中扮演重要角色。

常見的人臉特徵點定位方法包括:

1.回歸模型:透過訓練模型來學習人臉的幾何結構,並根據初始預測逐步修正特徵點的位置。

2.ASM (Active Shape Model) 和 AAM (Active Appearance Model) 是早期的典型方法。
這些方法基於統計學,通過對大量人臉的特徵點分佈進行建模。
深度學習模型:如今大部分特徵點定位方法都基於 CNN。

3.MTCNN 能夠同時檢測人臉和定位關鍵點。
Facial Landmark Networks (FLN) 是專門設計用來精準定位多個特徵點的深度學習網絡。
總結來說,人臉檢測技術通過不同的算法和方法實現了自動定位和檢測,為後續的人臉辨識、分析等應用打下基礎。隨著技術的發展,深度學習方法(如 MTCNN 和 YOLO)在精度和效率上有了顯著的提升。


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言