2023 iThome 鐵人賽
AI & Data
DAY 1

[Day 1] 起心動念與圖像生成 AI 簡介

圖像生成 AI 的原理與應用 系列 第 1 篇
hard_fish
1 年前 ‧ 826 瀏覽

https://ithelp.ithome.com.tw/upload/images/20230910/20162522R2dhFkvukI.jpg

以上這些圖片,大家分辨得出來哪些是機器產生的,哪些又是人拍攝或繪製的嗎?

答案是:全部都是機器產生出來的/images/emoticon/emoticon04.gif

這些是我用 Bing Image Creator 產生的影像。雖然如果很仔細的看,圖片多多少少還是能看出一些不自然的破綻,例如高腳杯是不對稱且歪斜的,街道中的行人也有點扭曲,但這樣的影像品質已經是很驚人了。

圖像生成既有趣又充滿了各種可能,這也是我想開始研讀圖像生成相關知識的原因。在這裡先稍微岔題自我介紹一下,我目前是一位 AI 工程師,一直對影像方面的深度學習原理及應用很有興趣,截至現在工作的內容主要涉及物件偵測和影像識別,沒什麼機會深入探究圖像生成的技術。因此,我想藉由連續 30 天的發文挑戰來幫助自己深入的研讀圖像生成的相關知識。

這個系列的文章預計會依序介紹幾個重要的圖像生成技術,並探討它們的實際應用。若篇幅允許,也將介紹目前熱門的影像生成服務。如果對這個主題感興趣,請繼續關注我的文章喔~/images/emoticon/emoticon25.gif

圖像生成這件事

首先來談談圖像生成是什麼,它相對於其他的影像機器學習任務有什麼特別之處~

圖像生成通常指的是利用機器學習技術來創造新的影像,這些影像有可能基於現有影像進行修改或合成,或基於文字等指令引導產生,也可能是從無到有的生成。

儘管機器學習技術總歸來說是學習輸入和輸出間的關係,但生成任務和分類或迴歸任務很不同的是,儘管給定相同的輸入,模型輸出會有很多可能性,是沒有唯一的標準答案的

例如我們如果要讓模型分類動物,不管是輸入柯基、米格魯、比利時牧羊犬、貴賓狗的影像,輸出都很明確的會是狗的類別。
https://ithelp.ithome.com.tw/upload/images/20230910/20162522bUcxlovwlV.jpg

然而,我們如果要讓模型生成一隻狗的影像,模型可以生成哈士奇、柴犬、拉不拉多、邊境牧羊犬等等的圖片,而且影像背景和風格也有很多可能。
https://ithelp.ithome.com.tw/upload/images/20230910/20162522MqfRy7Mcd5.jpg

此時,模型輸出不再只是一個明確的標籤,而是機率分布抽樣的結果了。

從上面的例子延伸來說,真實資料中狗的影像分布可能長得像下圖左邊這樣,我們就希望模型產生出來的影像分布也能很接近。
https://ithelp.ithome.com.tw/upload/images/20230910/20162522tnBCQJu7r8.jpg

而如何讓生成圖像的分布與目標的真實影像分布接近,便是圖像生成技術試圖解決的問題了!

圖像生成的模型類型

以下先列舉幾個重要的圖像生成技術:

  • Generative adversarial network (GAN):由生成器(generator)和鑑別器(discriminator)組成的架構,可以生成非常逼真的影像
  • Variational auto-encoder (VAE):可學習現實資料的潛在表徵,同時能生成具有潛在結構的新影像
  • Flow-based models:藉由對機率密度進行可逆的轉換達成影像生成
  • Diffusion models (DM):通過多個步驟的雜訊處理,逐漸將充滿雜訊的影像轉化為真實圖像
  • Latent diffusion models (LDM):結合擴散過程和潛在表徵的生成模型

在未來的文章將會一一介紹這些技術~

今天的文章就先到這裡~原本想說簡單寫寫沒想到還是字斟句酌花了不少時間,希望能堅持到完賽啊/images/emoticon/emoticon37.gif

此系列
下一篇

0 則留言