iT邦幫忙

2025 iThome 鐵人賽

DAY 27
0
生成式 AI

30 天打造第一本 AI 圖鑑:把怪獸收服成你的神奇寶貝系列 第 27

Day26 【圖像系】模型的進化論--從對抗到從粒子中創造世界的「擴散」模型

  • 分享至 

  • xImage
  •  

今日事項: 透過圖像模型的發展,了解現代不同類別圖像模型的演變、特點,以及演進的軌跡。

如果文章對你有幫助的話,歡迎按讚或留言,讓我知道我不是一個人在這裡碎碎念(?),我會很感謝的❤️


圖像模型的成長也是一場特別的進化

如果說語言模型的成長是由小到大、從單純的背答案到有感情、會思考,那圖像模型的變化就更有趣了一些。

(在技術有標記紅字的是重要技術出現的時間點)

年份 技術 / 模型 團隊 / 論文來源 主要突破 / 意義
2014.06 GAN(Generative Adversarial Network) Google 開啟生成式模型時代,以對抗訓練方式生成逼真圖片。
2018.03 Progressive GAN (PGGAN) NVIDIA 首次實現可生成高解析人臉圖像(1024×1024)。
2018.12 BigGAN DeepMind 提升生成品質與穩定性,能生成多樣真實感圖像。
2019.02 StyleGAN NVIDIA 可分離內容與風格控制,帶動 AI Portrait(AI 肖像)熱潮。
2020.12 DDPM (Denoising Diffusion Probabilistic Models) UC Berkeley / Google 擴散模型誕生,成為後來 Diffusion 類技術基礎。
2021.01 DALL·E 1 OpenAI 首次用「文字描述 → 圖像」生成,開啟 Text-to-Image 時代。
2021.05 CLIP (Contrastive Language–Image Pretraining) OpenAI 建立文字與圖像對齊橋樑,成為 Diffusion 模型基石。
2022.07 Stable Diffusion v1.4(開源) Stability AI + CompVis 以 Latent Diffusion 為基礎,開啟開源繪圖革命。
2022.07 Midjourney v1 Midjourney 推動藝術風格 AI 圖像生成浪潮
2022.09 DreamBooth Google Research 「個人化微調」技術誕生,可訓練 AI 記住特定人物或風格。
2022.11 LoRA(Low-Rank Adaptation) Microsoft Research 輕量化微調技術,讓個人可快速定制模型,成為 Stable Diffusion 微調主流。
2023.02 ControlNet Lvmin Zhang(斯坦福 / 微軟) 可用線稿、深度圖、姿勢圖控制生成圖像,解決“畫不準”的問題。
2024.10 Flux 1 Black Forest Labs(前 Stability 成員) 多模態繪圖模型,延續 SD 開源血統,支援高度可控風格。

1. 對抗網絡(GAN) 時代:偽造大師與鑑畫師之間的「對抗」

從酒吧中蹦出來的靈感

生成對網絡(GAN, Generative Adversarial Network)由Ian Goodfellow 等人在 2014 年提出,開啟了圖像生成模型的新時代。

說起來,這個 GAN 的誕生也是來自於一個神奇的靈光一閃。好像很多人類歷史上偉大的發明都來自於奇怪的想法?

Ian Goodfellow 在那時還是一個蒙特婁大學的博士生,某天在酒吧跟朋友聊天的時候,有朋友請他幫忙看看有關電腦生成圖片的項目。

當時他們利用神經網路的方式來進行電腦生圖,但結果不是臉模糊就是身體缺了一點零件。

這種模型的訓練方式,簡單來說就是給 AI 很多很多資料,比如要生成貓的話,給他看過很多貓的資料後,較他生成貓,他就會用曾經看過的那些資料來模擬,簡單來說就是背好答案之後抄出來。

這有點像是文字生成,但文字生成出來,有一兩個字不對勁沒什麼,不過圖像生成,有一兩個地方不對勁那就真的很不對勁……比如缺胳膊少腿。

Ian Goodfellow 在酒吧裡喝酒,喝著喝著突然跳出了一個想法,如果不是單純只有一個神經網絡模型,而是兩個,他們一個造假、一個辨假,是不是會有不一樣的結果?

如果只有一個模型的話,自己摸索,根本不知道什麼叫做「好圖片」,但如果讓另一個模型一起加入進來,兩邊都可以在過程中成長,一個越來越會騙,一個月來越會看,這不是比人工來看要簡單多了?

革命性的概念在酒醉的夜晚被創造出來

當時在酒吧的時候,Ian Goodfellow 就跟朋友們說了這個想法,但朋友們抱著懷疑態度,甚至他自己在後來也覺得自己在清醒的時候不會認為這想法可行。畢竟訓練一個神經網絡就夠難了,你還要再額外訓練一個,然後互相學習指證,根本就不可能。

但眾所皆知,他那天喝了酒……所以他回家之後就把電腦打開來試了。(感謝酒精的貢獻)

然後他為了這個很天馬行空的想法,寫代碼寫到了凌晨,進行測試,沒想到竟然出來了結果,雖然很小而且非常模糊,但的確有了起點。

GAN 就這樣水靈靈的出現了!

(也不知道他的朋友知道了之後有沒有想揍他的感想?)


上一篇
Day26 【語言系】模型成長史--大參數、長上下文、情感、思考……等功能演進
系列文
30 天打造第一本 AI 圖鑑:把怪獸收服成你的神奇寶貝27
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言