[Day 1] 起心動念與圖像生成 AI 簡介

2023 iThome 鐵人賽

DAY 1

AI & Data

圖像生成 AI 的原理與應用系列第 1 篇

15th鐵人賽圖像生成深度學習

hard_fish

2023-09-10 22:15:01

1416 瀏覽

分享至

以上這些圖片，大家分辨得出來哪些是機器產生的，哪些又是人拍攝或繪製的嗎？

答案是：全部都是機器產生出來的

這些是我用 Bing Image Creator 產生的影像。雖然如果很仔細的看，圖片多多少少還是能看出一些不自然的破綻，例如高腳杯是不對稱且歪斜的，街道中的行人也有點扭曲，但這樣的影像品質已經是很驚人了。

圖像生成既有趣又充滿了各種可能，這也是我想開始研讀圖像生成相關知識的原因。在這裡先稍微岔題自我介紹一下，我目前是一位 AI 工程師，一直對影像方面的深度學習原理及應用很有興趣，截至現在工作的內容主要涉及物件偵測和影像識別，沒什麼機會深入探究圖像生成的技術。因此，我想藉由連續 30 天的發文挑戰來幫助自己深入的研讀圖像生成的相關知識。

這個系列的文章預計會依序介紹幾個重要的圖像生成技術，並探討它們的實際應用。若篇幅允許，也將介紹目前熱門的影像生成服務。如果對這個主題感興趣，請繼續關注我的文章喔～

圖像生成這件事

首先來談談圖像生成是什麼，它相對於其他的影像機器學習任務有什麼特別之處～

圖像生成通常指的是利用機器學習技術來創造新的影像，這些影像有可能基於現有影像進行修改或合成，或基於文字等指令引導產生，也可能是從無到有的生成。

儘管機器學習技術總歸來說是學習輸入和輸出間的關係，但生成任務和分類或迴歸任務很不同的是，儘管給定相同的輸入，模型輸出會有很多可能性，是沒有唯一的標準答案的

例如我們如果要讓模型分類動物，不管是輸入柯基、米格魯、比利時牧羊犬、貴賓狗的影像，輸出都很明確的會是狗的類別。

然而，我們如果要讓模型生成一隻狗的影像，模型可以生成哈士奇、柴犬、拉不拉多、邊境牧羊犬等等的圖片，而且影像背景和風格也有很多可能。

此時，模型輸出不再只是一個明確的標籤，而是機率分布抽樣的結果了。

從上面的例子延伸來說，真實資料中狗的影像分布可能長得像下圖左邊這樣，我們就希望模型產生出來的影像分布也能很接近。

而如何讓生成圖像的分布與目標的真實影像分布接近，便是圖像生成技術試圖解決的問題了！

圖像生成的模型類型

以下先列舉幾個重要的圖像生成技術：

Generative adversarial network (GAN)：由生成器（generator）和鑑別器（discriminator）組成的架構，可以生成非常逼真的影像
Variational auto-encoder (VAE)：可學習現實資料的潛在表徵，同時能生成具有潛在結構的新影像
Flow-based models：藉由對機率密度進行可逆的轉換達成影像生成
Diffusion models (DM)：通過多個步驟的雜訊處理，逐漸將充滿雜訊的影像轉化為真實圖像
Latent diffusion models (LDM)：結合擴散過程和潛在表徵的生成模型

在未來的文章將會一一介紹這些技術～

今天的文章就先到這裡～原本想說簡單寫寫沒想到還是字斟句酌花了不少時間，希望能堅持到完賽啊