圖像生成(Image Generation)是生成式 AI 中最受矚目的研究方向之一。其目標是讓模型能夠根據輸入條件,生成具有真實感與多樣性的圖像。從早期的 生成對抗網路(GAN, Generative Adversarial Networks) 到近年的 擴散模型(Diffusion Models),圖像生成技術的進步,帶來了質與量的飛躍。
GAN 由 Ian Goodfellow 等人在 2014 年提出,其核心概念是透過 生成器(Generator) 與 判別器(Discriminator) 的對抗訓練,讓生成器逐漸學會「騙過」判別器,最終產生極為真實的圖像。GAN 推動了許多應用,包括:
人臉生成(如 StyleGAN)
圖像修復與去雜訊
藝術風格轉換
然而,GAN 也存在 模式崩潰(Mode Collapse) 與訓練不穩定等問題,使得生成結果有時缺乏多樣性。
擴散模型(Diffusion Models) 的出現則帶來另一種思路。該方法透過 逐步向圖像加入雜訊,再學習如何 逐步去除雜訊,最終重建清晰的影像。這一過程類似於「反向模擬擴散過程」,能夠生成高度真實、細節豐富的結果。
代表性模型包括:
DDPM (Denoising Diffusion Probabilistic Models)
Stable Diffusion:開源後迅速推動了 AI 繪圖的普及
DALL·E 與 Imagen:結合文字提示(Prompt)進行跨模態生成
與 GAN 相比,Diffusion Models 訓練更穩定,生成品質更高,也更適合結合語言模型進行 文字到圖像生成(Text-to-Image Generation)。它已廣泛應用於:
藝術創作與遊戲設計
廣告與產品原型
醫學影像與科學模擬
總結來說,GAN 開啟了圖像生成的新時代,而 Diffusion Models 則將其推向更高層次。隨著運算能力與模型設計的演進,未來的圖像生成將更具創造力與應用價值。