AI創造的虛擬世界：未來影像世界還需要真人嗎？

2024 iThome 鐵人賽

DAY 4

AI/ ML & Data

AI Unlocked: 30 Days to AI Brilliance系列第 4 篇

16th鐵人賽 ai deepfake gan

leeangel

團隊資工之花

2024-09-18 15:08:32

336 瀏覽

分享至

在未來的某一天，你有沒有想過，當我們打開電影、廣告甚至新聞節目時，看到的那些面孔、聽到的那些聲音，很可能不是真實存在的人？AI技術日新月異，尤其是Deepfake的技術，感覺好像很複雜，但簡單來說，這些都是讓AI「學會模仿」和「學會創造」的工具。今天，我們就來聊聊這些技術是如何運作的吧。

一、生成對抗網絡（GAN）：Deepfake的核心驅動力

什麼是Deepfake？
合成某個（不一定存在的）人的圖像或影片、甚至聲音，讓整體看起來很自然、我們也辨認不出它的真假，這種栩栩如生底下的技術主要源自於Generative Adversarial Networks（GAN)
原理：
GAN是一種深度學習架構，主要為訓練兩個不同的網絡並使它們相互對抗。
A網絡從資料集取得輸入，它會盡可能地修改並產生新資料，而B網絡會嘗試預測這個資料輸出是否屬於原始資料集。A不斷地取資料來修改、B不斷地去預測及猜測該資料是否來自於原始資料庫（也就是分辨虛擬或真實），直到B再也無法區分虛假與原始資料，Deepfake的影片或照片就這樣生成了。其中，不斷修改資料的A網絡被稱為生成器(Generator)，反之，B被稱為鑑別器(Discriminator)。

例如，A以一個人臉作為輸入並改變他的表情由微笑變成露齒笑，B就會收到好幾筆資料，都是同一人但有好幾種表情的圖片，其中只有露齒笑的那張是假照片，B必須試圖找到那張唯一假的表情，否則就算A獲勝。

類型：

條件性 GAN：可有針對性地產生資料、只產生符合特定條件的資料
深度卷積 GAN：將最善於處理影像資料的CNN 架構整合到 GAN 中，稱為DCGAN
超解析度 GAN：將影像增強到更高的解析度，同時保持影像品質和細節

二、RNN與LSTM：處裡序列數據

RNN（遞歸神經網絡）：
通過一個循環機制將前一步的輸出作為當前步驟的輸入，這樣可以記住先前的信息，適合處理像時間序列、語音、或文本等連續數據。
例如：昨天宿舍晚上吃披薩，今天就是壽司；如果昨天吃壽司，今天就會是鬆餅，那麼就算昨天沒有去宿舍吃晚餐也能知道今天晚上會是什麼，那是因為昨天的晚餐又可以敨過更早的數據推得出來。

LSTM（長短期記憶網絡）：
是RNN的進階版，為了解決RNN無法擁有長期記憶的問題。而LSTM的架構多了遺忘門（決定什麼資料要忘掉）和記憶單元（什麼資料該記住），能夠更好地記住長時間序列中的重要信息，同時忽略不重要的部分。
應用
主要用於處理連續幀，使得影片中的動作和表情更加連貫自然，更是確保了Deepfake中的面部表情和動作在時間維度上保持一致，增強了影片的真實感。
此外，有別於其他神經網絡，它們能一次處理多組輸入或一次產生多組輸出，讓神經網絡不在只能處理分類問題。
例如：一組輸入多組輸出時，就可以將圖片自動標上文字。多組輸入一組輸出則可以處理文本的情感理解，像是從一段文章中知道是正面或反面的結果。而多組輸入，多組輸出時，就可以自動翻譯。

三、人臉對齊的基本技術
AI必須能夠實現人臉在不同角度和光線下的精確對位，才能讓影片每個瞬間都能無縫換臉、讓影片更真實順暢，如何對齊影片中的人臉就是至關重要的一環。

面部檢測：定位人臉位置

Haar級聯分類器：基於特徵的檢測方法，好幾個分類器分區塊地檢測面部特徵，然後將這些分類器串聯起來，實現高效的面部檢測。
深度學習模型：使用以卷積神經網絡（CNN）為基礎的模型檢測人臉位置和大小。

特徵點定位：識別人臉上的關鍵特徵點，如眼睛、鼻子、嘴巴的位置
68點或5點模型（如：Dlib)來檢測面部特徵點，點越多就能更詳細檢測臉部。
面部對齊：根據特徵點將人臉圖像轉換到標準坐標系中。

仿射變換：一種線性變換，能夠旋轉、縮放和平移，將檢測到的特徵點對齊到標準模板中
透視（幾何）變換：主要處理由於視角變化的形變，以完成多角度視角場景

現在網路上不少照片或影片都是由AI所生成，到目前為止我們都還能通過人眼分辨、糾出他們影片或照片中不自然的地方，從影片中的面部細節，到動作的自然連續，甚至捕捉面部表情的小細節，每個環節AI都有可能出錯。雖然現在的技術或許還有待加強，不過隨著AI一次一次的更新學習、技術不斷成熟後，我們不可否認AI可能有一天會取代影視業。