iT邦幫忙

2023 iThome 鐵人賽

DAY 22
0
AI & Data

圖像生成 AI 的原理與應用系列 第 22

[Day 22] 各式各樣的 AI 文字生圖服務 - Midjourney、Stable Diffusion、DALL·E、Bing Image Creator、Imagen

  • 分享至 

  • xImage
  •  

關於幾個經典的圖像生成模型的介紹終於告一個段落了!接下來的內容,會開始介紹基於圖像生成 AI 模型的服務~並且盡可能實際使用並比較它們的產生影像的效果/images/emoticon/emoticon07.gif

所謂文字生成圖像(text-to-image),就是使用者輸入一些文字敘述或提示詞給模型後,模型可以依照文字內容生成對應的影像。今天的文章將會先速覽幾個熱門的文字生圖服務,包括 Midjourney、Stable Diffusion、DALL·E、Bing Image Creator、Imagen~

Midjouney

https://ithelp.ithome.com.tw/upload/images/20231001/20162522rdeu6WXx7J.jpg

Midjouney 是由位於舊金山的 Midjouney 實驗室所開發的,於 2022 年 7 月開始提供公開測試,它的模型版本更新的相對快速,平均每幾個月就會發布新的版本,目前的版本為 2023 年 6 月發布的 V5.2。

關於 Midjouney 的資訊,官方提供的非常少。除此之外目前都只能藉由 Discord 才能使用 Midjourney,且無法免費使用,使用門檻算是比較高一點。但根據網路上的評價,Midjouney 產生的影像應該是眾多文字生圖服務中非常精緻的。

Stable Diffusion

https://ithelp.ithome.com.tw/upload/images/20231001/201625220reBZClTBk.jpg

2022 年 8 月由 Stability AI 這家公司發布的文字生成影像模型,它是基於 latent diffusion model,原理和之前介紹的 diffusion model 接近,只是要轉換的分布從原本的影像分布變成 latent code 的分布,比較詳細的原理會再之後的文章中介紹。

Stable Diffusion 相對於其他文字產生影像的模型比較特別的地方是,它有釋出開源程式碼以及公開模型權重(GitHub repo),因此不只可以使用它的雲端服務,如果自身計算資源充足的話也可以用自己的機器運行。

而目前提供使用的穩定版本模型 Stable Diffusion XL 號稱能用較短的提示詞(prompt)就能產生有相對意義的描述性影像,另外它在影像構圖和人臉影像生成的表現有明顯的提升。

而 Stable Diffusion XL 除了能用於影像生成,也可以拿來編輯已經產生的影像,修補影像和擴展影像。

如想使用基於 Stable Diffusion 的服務,在 Stable Diffusion Online 可以嘗試一些基礎的功能,而 DreamStudio 則有提供更多進階功能。

DALL·E

https://ithelp.ithome.com.tw/upload/images/20231001/20162522ZH8eFgemQU.jpg

DALL·E 是 OpenAI 於 2021 年初首次發布的文字產生影像模型,而在 2022 年 4 月 OpenAI 宣布了新版本的DALL·E 2,即目前提供給用戶使用的版本。不過就在今年 9 月,OpenAI 接露了即將發布 DALL·E 3 的消息,預計在 10 月會試提供付費用戶使用(就是最近!/images/emoticon/emoticon34.gif)。

根據 DALL·E 2 的官網,DALL·E 2 可以理解文字敘述中的影像概念、特性與風格,並依此產生影像。除此之外,它比先前的 DALL·E 能產生內容更精確逼真且解析度更高的影像。

Bing Image Creator

https://ithelp.ithome.com.tw/upload/images/20231001/20162522XyJp32p9K5.jpg

Bing Image Creator 是由 Microsoft 提供的文字產生影像服務,由於 Microsoft 和 OpenAI 的合作關係,它背後的模型其實就是 DALL·E。

而 Bing Image Creator 只要有 Microsoft 帳號就可以使用,相較於要使用 DALL·E 2 需要註冊帳號,是容易近用一些(也因此是我目前拿來生成影像的服務/images/emoticon/emoticon37.gif)。至於兩個服務產生出來的影像是否仍有一些差異,有機會可以作為未來的文章主題來探討。

Imagen

https://ithelp.ithome.com.tw/upload/images/20231001/201625225pp6nyHSlO.jpg

Google 團隊在 2022 年 5 月發布了他們開發的文字生成影像模型 Imagen,他們的研究顯示這個新的模型在公開的 COCO 資料集得到最好的 FID(Fréchet Inception Distance,影像生成品質指標,在 [Day 6] 如何評估 GAN 生成影像的表現?有簡介過原理喔),並且在人工評比中也更容易受到青睞。

不過這個模型目前似乎只在 Google 的 AI Test Kitchen 有限的提供使用,因此較少人使用,也比較看不到使用經驗的分享。


上一篇
[Day 21] Diffusion Model 的數學原理(三)
下一篇
[Day 23] Bing Image Creator 使用介紹與結合 ChatGPT 的組合技
系列文
圖像生成 AI 的原理與應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言