[Day 22] 各式各樣的 AI 文字生圖服務 - Midjourney、Stable Diffusion、DALL·E、Bing Image Creator、Imagen

2023 iThome 鐵人賽

DAY 22

AI & Data

圖像生成 AI 的原理與應用系列第 22 篇

[Day 22] 各式各樣的 AI 文字生圖服務 - Midjourney、Stable Diffusion、DALL·E、Bing Image Creator、Imagen

15th鐵人賽 text-to-image 圖像生成深度學習 ai

hard_fish

2023-10-01 22:27:29

783 瀏覽

分享至

關於幾個經典的圖像生成模型的介紹終於告一個段落了！接下來的內容，會開始介紹基於圖像生成 AI 模型的服務～並且盡可能實際使用並比較它們的產生影像的效果

所謂文字生成圖像（text-to-image），就是使用者輸入一些文字敘述或提示詞給模型後，模型可以依照文字內容生成對應的影像。今天的文章將會先速覽幾個熱門的文字生圖服務，包括 Midjourney、Stable Diffusion、DALL·E、Bing Image Creator、Imagen～

Midjouney

Midjouney 是由位於舊金山的 Midjouney 實驗室所開發的，於 2022 年 7 月開始提供公開測試，它的模型版本更新的相對快速，平均每幾個月就會發布新的版本，目前的版本為 2023 年 6 月發布的 V5.2。

關於 Midjouney 的資訊，官方提供的非常少。除此之外目前都只能藉由 Discord 才能使用 Midjourney，且無法免費使用，使用門檻算是比較高一點。但根據網路上的評價，Midjouney 產生的影像應該是眾多文字生圖服務中非常精緻的。

Stable Diffusion

2022 年 8 月由 Stability AI 這家公司發布的文字生成影像模型，它是基於 latent diffusion model，原理和之前介紹的 diffusion model 接近，只是要轉換的分布從原本的影像分布變成 latent code 的分布，比較詳細的原理會再之後的文章中介紹。

Stable Diffusion 相對於其他文字產生影像的模型比較特別的地方是，它有釋出開源程式碼以及公開模型權重（GitHub repo），因此不只可以使用它的雲端服務，如果自身計算資源充足的話也可以用自己的機器運行。

而目前提供使用的穩定版本模型 Stable Diffusion XL 號稱能用較短的提示詞（prompt）就能產生有相對意義的描述性影像，另外它在影像構圖和人臉影像生成的表現有明顯的提升。

而 Stable Diffusion XL 除了能用於影像生成，也可以拿來編輯已經產生的影像，修補影像和擴展影像。

如想使用基於 Stable Diffusion 的服務，在 Stable Diffusion Online 可以嘗試一些基礎的功能，而 DreamStudio 則有提供更多進階功能。

DALL·E

DALL·E 是 OpenAI 於 2021 年初首次發布的文字產生影像模型，而在 2022 年 4 月 OpenAI 宣布了新版本的DALL·E 2，即目前提供給用戶使用的版本。不過就在今年 9 月，OpenAI 接露了即將發布 DALL·E 3 的消息，預計在 10 月會試提供付費用戶使用（就是最近！）。

根據 DALL·E 2 的官網，DALL·E 2 可以理解文字敘述中的影像概念、特性與風格，並依此產生影像。除此之外，它比先前的 DALL·E 能產生內容更精確逼真且解析度更高的影像。

Bing Image Creator

Bing Image Creator 是由 Microsoft 提供的文字產生影像服務，由於 Microsoft 和 OpenAI 的合作關係，它背後的模型其實就是 DALL·E。

而 Bing Image Creator 只要有 Microsoft 帳號就可以使用，相較於要使用 DALL·E 2 需要註冊帳號，是容易近用一些（也因此是我目前拿來生成影像的服務）。至於兩個服務產生出來的影像是否仍有一些差異，有機會可以作為未來的文章主題來探討。

Imagen

Google 團隊在 2022 年 5 月發布了他們開發的文字生成影像模型 Imagen，他們的研究顯示這個新的模型在公開的 COCO 資料集得到最好的 FID（Fréchet Inception Distance，影像生成品質指標，在 [Day 6] 如何評估 GAN 生成影像的表現？有簡介過原理喔），並且在人工評比中也更容易受到青睞。

不過這個模型目前似乎只在 Google 的 AI Test Kitchen 有限的提供使用，因此較少人使用，也比較看不到使用經驗的分享。