iT邦幫忙

2024 iThome 鐵人賽

DAY 14
0
AI/ ML & Data

AI Unlocked: 30 Days to AI Brilliance系列 第 14

GAN的雙面性:解決訓練不穩定與探索變種模型

  • 分享至 

  • xImage
  •  

先前我們介紹過GAN模型,它是由生成器與判別器組成,透過不斷地生成和猜測進化自己產生的資料,直到判別器分辨不出真假。
模型的訓練就像兩個程度相當的學生在一次次考試中切磋,當生成器與判別器的能力不同就會產生模型無法進步的問題。

一、模式崩潰與訓練不穩定的解決方法

模式崩潰是GAN 訓練中常見的問題,生成器只學會生成某幾種類型的樣本,無法學習到數據集的多樣性,這會導致生成數據的單一性。這種情況多數是由於損失函數過於簡單,或者生成器和判別器的訓練不平衡所導致的。
解決:

  • WGAN(Wasserstein GAN)

WGAN 通過將傳統的交叉熵損失改為 Wasserstein 距離,改善了損失函數的設計。Wasserstein 距離衡量的是兩個分布之間的「地球搬運距離」(付出最少的資源及成本),因此可以更穩定地衡量生成數據與真實數據之間的差異。

  1. 能夠提供更平滑的損失曲線,使得生成器能夠在不那麼極端的條件下更穩定地學習。
  2. 引導生成器產生更加多樣的樣本,減少模式崩潰的情況。
  • 正則化判別器 Spectral Normalization

當判別器過於強大時,生成器會很難學習並改善自己的輸出,透過限制判別器的學習能力,可以避免判別器過於強大,使得生成器無法有效學習。正則化可以使判別器保持合理的學習範圍,從而維持生成器和判別器之間的平衡,避免訓練中的不穩定情況。

二、GAN 的變種模型

GAN 的變種模型可以針對不同應用場景和技術需求:

  1. Conditional GAN (CGAN)

生成器接收一個額外的條件輸入(如標籤或其他先驗信息),以此來控制生成數據的類型。
應用:根據具體的輸入條件生成對應類別的圖像,應用於圖像生成、標籤控制生成以及文本到圖像的生成等領域。例如:給定手寫數字的標籤,CGAN 可以生成對應的手寫數字圖像。

  1. CycleGAN

無需成對數據進行圖像轉換的 GAN 模型。傳統的圖像轉換方法需要成對數據集(如一張白天和同一場景的夜晚圖像),而 CycleGAN 無需成對數據即可學習如何將一類圖像轉換為另一類。
應用:
圖像風格轉換(如將照片轉換為油畫風格)、無監督圖像轉換(如白天到夜晚、馬到斑馬)等場景。

  1. StyleGAN

生成高質量、控制精細的圖像的變種模型,引入了風格控制的概念,使得用戶可以在生成過程中調節不同層次的特徵來控制生成圖像的風格和細節。

應用:生成極高質量的人臉圖像,甚至可以微調面部特徵,如年齡、髮型、表情等。這種技術的應用範圍包括虛擬角色創建、電影特效和遊戲中的人物設計。

了解到模型無法進步的主因可以讓我們創建的模型更加強大,GAN不同變種的模型幫助我們產出各式各樣的圖像,依照我們的需求不同可以產出不同畫風的圖片甚至是做簡報也都是依賴著GAN模型生成的,讓我們可以輕輕鬆鬆產出不同的作品。


上一篇
強化學習實戰:從理論到實作,帶你掌握 Q-learning
下一篇
神秘數字的創造者:用GAN生成手寫數字的旅程
系列文
AI Unlocked: 30 Days to AI Brilliance30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言