[Day 29] 淺談 DALL·E 2 的原理

2023 iThome 鐵人賽

DAY 29

AI & Data

圖像生成 AI 的原理與應用系列第 29 篇

15th鐵人賽 dall·e 2 圖像生成深度學習 clip

hard_fish

2023-10-08 14:34:16

1909 瀏覽

分享至

昨天簡單的介紹了 Stable Diffusion，它是目前最先進的條件式影像生成模型其中之一，而今天的文章則要介紹另一個也被認為是最先進的文字生成影像模型，也就是 OpenAI 所開發的 DALL·E 2。

DALL·E 2 paper：Hierarchical Text-Conditional Image Generation with CLIP Latents

在 DALL·E 2 paper 的一開始就呈現了他們產品層級的模型能達到什麼樣的影像生成效果，可說是想生成什麼就生成什麼，也包含各種的影像風格，使用者可以發揮各種創意

（圖片來源：Hierarchical Text-Conditional Image Generation with CLIP Latents）

仔細探究 DALL·E 2 的模型架構，其實和 Stable Diffusion 相差不大，但在 Stable Diffusion 強調的是利用 latent space 的 diffusion model 減低運算資源，而 DALL·E 2 則強調結合將文字和影像表徵對應起來的 CLIP（Contrastive Language-Image Pre-training）和 latent diffusion model。

CLIP 是什麼？

首先來簡介一下 CLIP（Contrastive Language-Image Pre-training）這個技術，CLIP 是指用對比學習（constrastive learning）的方式將文字和影像的表徵（representation）對應起來的技術，它在提出之後逐漸成為熱門的模型預訓練方法，透過這種方式預訓練的模型可以用在影像分類、影像生成、文本分類等多種下游任務。

它的訓練方式如下圖，首先我們會準備大量成對的文字和影像，分別透過 text encoder 得到文字的 representation，image encoder 得到影像的 representation，然後要讓模型學習讓同一對的文字和影像 representation 越相近越好，而不同對的 representation 則要越不相像。

（圖片來源：Learning Transferable Visual Models From Natural Language Supervision）

如此一來我們就可以得到文字和影像意義共通的表徵空間了，它就非常適合用於利用文字條件引導影像生成的情況。

如何訓練 DALL·E 2？

（圖片來源：Hierarchical Text-Conditional Image Generation with CLIP Latents）

在我們已經用 CLIP 讓影像和文字表徵對應在一起後，DALL·E 2 的訓練基本上可以分為兩個部分：

Latent space 的生成模型

首先是訓練根據文字產生影像 latent representation 的生成模型，在這個研究中 OpenAI 分別實驗用 diffusion model 和 autoregressive model 作為生成模型。

Autoregressive model 在之前沒有介紹過，簡單來說，當我們要模型生成影像的 representation 的時候，它一次只會生成 representation 的一部分，然後再基於已經生成的部分再產生一部份的 representation，如此序列式的生成，直到完整產生出一組 representation。

由於 autoregressive model 計算量實在很大，因此這個研究在訓練模型時還要將 CLIP 得到的 representation 用 PCA 降維。

相對的，diffusion model 的生成過程就是一步到位，一次直接從模型產生完整的 representation。

Diffusion model 基本上和之前介紹得差不多，但比較不同的是，這個研究發現訓練模型直接預測降噪後的 representation，會比先預測 noise 再讓輸入減去 noise 的效果好。而實驗的結論是使用 diffusion model 有更高的效率而且生成影像的品質也比較好。