圖片生成技術是生成式 AI 中的一個關鍵領域,主要以產出全新的圖片或從現有的圖片中生成其他圖片。早期的圖片生成技術依賴於基本的數學模型和統計方法,如馬可夫鏈和隱馬可夫模型,用於生成低解析度和簡單的圖片。隨著深度學習技術的興起,特別是卷積神經網路 (CNN) 的出現,圖片生成技術開始有了顯著的突破。
在Day 2 生成式 AI 的歷史演變有提到生成式對抗網路是為了生成圖片而提出的,透過兩個神經網路組成:生成器和判別器。生成器負責創建假圖片,而判別器則試圖分辨出這些假圖片與真實圖片之間的區別。通過這種對抗訓練,生成器逐漸學會生成越來越逼真的圖片。
OpenAI 發佈了兩個突破性的技術 DALL·E 與 CLIP (Contrastive Language–Image Pre-training),這代表著圖片生成領域的一個重要里程碑。DALL·E 是一個基於生成式 AI 的模型,它能夠根據自然語言描述生成具有創造性且逼真的圖片,展示了生成式 AI 在多模態學習中的強大潛力。與此同時,CLIP 則提供了一種創新的方法來將文字和圖片的理解聯結起來,允許模型在無需大量標記資料的情況下進行圖片和文字的跨模態學習。這兩項技術的結合不僅推動了圖片生成技術的發展,也在 AI 創意設計、自動生成內容等領域開啟了全新的應用可能性。
圖片生成的部分,從前期緩慢的進展到近期的快速突破,令人期待圖片生成領域在未來的發展。