iT邦幫忙

2025 iThome 鐵人賽

DAY 9
0
生成式 AI

生成式AI:從歷史與基礎原理到賦予產能的工具系列 第 9

圖像生成:從 GAN 到 Diffusion Models

  • 分享至 

  • xImage
  •  

圖像生成(Image Generation)是生成式 AI 中最受矚目的研究方向之一。其目標是讓模型能夠根據輸入條件,生成具有真實感與多樣性的圖像。從早期的 生成對抗網路(GAN, Generative Adversarial Networks) 到近年的 擴散模型(Diffusion Models),圖像生成技術的進步,帶來了質與量的飛躍。

GAN:對抗式學習的突破

GAN 由 Ian Goodfellow 等人在 2014 年提出,其核心概念是透過 生成器(Generator)判別器(Discriminator) 的對抗訓練,讓生成器逐漸學會「騙過」判別器,最終產生極為真實的圖像。GAN 推動了許多應用,包括:

  • 人臉生成(如 StyleGAN)

  • 圖像修復與去雜訊

  • 藝術風格轉換

然而,GAN 也存在 模式崩潰(Mode Collapse) 與訓練不穩定等問題,使得生成結果有時缺乏多樣性。

Diffusion Models:從隨機到秩序

擴散模型(Diffusion Models) 的出現則帶來另一種思路。該方法透過 逐步向圖像加入雜訊,再學習如何 逐步去除雜訊,最終重建清晰的影像。這一過程類似於「反向模擬擴散過程」,能夠生成高度真實、細節豐富的結果。

代表性模型包括:

  • DDPM (Denoising Diffusion Probabilistic Models)

  • Stable Diffusion:開源後迅速推動了 AI 繪圖的普及

  • DALL·E 與 Imagen:結合文字提示(Prompt)進行跨模態生成

技術與應用展望

與 GAN 相比,Diffusion Models 訓練更穩定,生成品質更高,也更適合結合語言模型進行 文字到圖像生成(Text-to-Image Generation)。它已廣泛應用於:

  • 藝術創作與遊戲設計

  • 廣告與產品原型

  • 醫學影像與科學模擬

總結來說,GAN 開啟了圖像生成的新時代,而 Diffusion Models 則將其推向更高層次。隨著運算能力與模型設計的演進,未來的圖像生成將更具創造力與應用價值。


上一篇
文本生成:語言模型與應用
下一篇
音樂與聲音生成的發展
系列文
生成式AI:從歷史與基礎原理到賦予產能的工具10
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言