以上這些圖片,大家分辨得出來哪些是機器產生的,哪些又是人拍攝或繪製的嗎?
答案是:全部都是機器產生出來的
這些是我用 Bing Image Creator 產生的影像。雖然如果很仔細的看,圖片多多少少還是能看出一些不自然的破綻,例如高腳杯是不對稱且歪斜的,街道中的行人也有點扭曲,但這樣的影像品質已經是很驚人了。
圖像生成既有趣又充滿了各種可能,這也是我想開始研讀圖像生成相關知識的原因。在這裡先稍微岔題自我介紹一下,我目前是一位 AI 工程師,一直對影像方面的深度學習原理及應用很有興趣,截至現在工作的內容主要涉及物件偵測和影像識別,沒什麼機會深入探究圖像生成的技術。因此,我想藉由連續 30 天的發文挑戰來幫助自己深入的研讀圖像生成的相關知識。
這個系列的文章預計會依序介紹幾個重要的圖像生成技術,並探討它們的實際應用。若篇幅允許,也將介紹目前熱門的影像生成服務。如果對這個主題感興趣,請繼續關注我的文章喔~
首先來談談圖像生成是什麼,它相對於其他的影像機器學習任務有什麼特別之處~
圖像生成通常指的是利用機器學習技術來創造新的影像,這些影像有可能基於現有影像進行修改或合成,或基於文字等指令引導產生,也可能是從無到有的生成。
儘管機器學習技術總歸來說是學習輸入和輸出間的關係,但生成任務和分類或迴歸任務很不同的是,儘管給定相同的輸入,模型輸出會有很多可能性,是沒有唯一的標準答案的
例如我們如果要讓模型分類動物,不管是輸入柯基、米格魯、比利時牧羊犬、貴賓狗的影像,輸出都很明確的會是狗的類別。
然而,我們如果要讓模型生成一隻狗的影像,模型可以生成哈士奇、柴犬、拉不拉多、邊境牧羊犬等等的圖片,而且影像背景和風格也有很多可能。
此時,模型輸出不再只是一個明確的標籤,而是機率分布抽樣的結果了。
從上面的例子延伸來說,真實資料中狗的影像分布可能長得像下圖左邊這樣,我們就希望模型產生出來的影像分布也能很接近。
而如何讓生成圖像的分布與目標的真實影像分布接近,便是圖像生成技術試圖解決的問題了!
以下先列舉幾個重要的圖像生成技術:
在未來的文章將會一一介紹這些技術~
今天的文章就先到這裡~原本想說簡單寫寫沒想到還是字斟句酌花了不少時間,希望能堅持到完賽啊