iT邦幫忙

2023 iThome 鐵人賽

DAY 23
0
AI & Data

圖像生成 AI 的原理與應用系列 第 23

[Day 23] Bing Image Creator 使用介紹與結合 ChatGPT 的組合技

  • 分享至 

  • xImage
  •  

今天也會是比較輕鬆的內容~我們要開始用文字生成影像服務來產生影像了!/images/emoticon/emoticon42.gif

由於 DALL·E 2 必須付費才能使用,所以今天介紹的會是串接 DALL·E 2 模型的 Bing Image Creator,也會嘗試不同提示詞(prompt)對於影像生成的效果。

基本使用

Bing Image Creator 只要有 Microsoft 帳號即可使用,在登入之後應該就可以看到以下畫面:

https://ithelp.ithome.com.tw/upload/images/20231002/20162522FM101m8SgF.jpg

在「探索構想」的頁籤已經提供一些效果不錯的生成影像範例和他們對應的 prompt,例如將滑鼠移到彩色蝴蝶的影像,就可以看到用來生成這張影像的 prompt 是 "A butterfly with rainbow wings landing on a flower"(如下圖)

https://ithelp.ithome.com.tw/upload/images/20231002/20162522vtlTtWDDm8.jpg

而在「創作」的頁籤就可以直接輸入 prompt,按下「建立」即可產生影像。如果還想不到要輸入什麼樣的 prompt,可以先嘗試範例的 "A butterfly with rainbow wings landing on a flower",產生影像約需等待 1 分鐘~

https://ithelp.ithome.com.tw/upload/images/20231002/20162522OdDSAxR2uR.jpg

噠啦~以下就是生成影像的結果,Bing Image Creator 一次會產生四張圖,解析度都是 1024x1024 無法調整。值得注意的是,雖然我們輸入和範例一模一樣的 prompt,但模型因為隨機性的關係並不會產生一模一樣的圖,每一次都是重新創作/images/emoticon/emoticon37.gif

https://ithelp.ithome.com.tw/upload/images/20231002/20162522OoZJXtlKSd.jpg

而右側的欄位會保留我們最近生成影像的結果,不過保留的結果有限,如果有覺得滿意的影像還是要盡早存下~

點擊個別一張圖片,就會有它的相關資訊,可以選擇以連結的方式分享,也可以儲存到 Microsoft Bing 的空間,或直接下載到本機~

https://ithelp.ithome.com.tw/upload/images/20231002/20162522MEeUYiGNY9.jpg

Bing Image Creator 產生的影像固定為方形,是應用上沒那麼便利的地方。其實 DALL·E 2 有提供將原本方形的影像擴展成其他長寬比的影像,不過這就有待有心人付費解鎖了/images/emoticon/emoticon02.gif

中英文提示詞差異

DALL·E 2 的訓練資料雖然包含不同語言,但推測還是以英文居多,可能用英文的提示詞產生影像的效果會比較好。在這裡我們可以做個簡單的實測~

在這裡,我嘗試讓 Bing Image Creator 用中文和英文意義相同的 prompt 分別產生影像~
英文:A chubby cat lay on the grass
中文:一隻躺在草地上的圓胖的貓

一起來看看結果吧!

英文 prompt "A chubby cat lay on the grass" 產生影像結果(共嘗試產生影像三次):
https://ithelp.ithome.com.tw/upload/images/20231002/20162522Bc3emhDfic.jpg

https://ithelp.ithome.com.tw/upload/images/20231002/201625227wqwuhl52q.jpg

https://ithelp.ithome.com.tw/upload/images/20231002/20162522dCoa80zgXU.jpg

中文 prompt「一隻躺在草地上的圓胖的貓」產生影像結果:
https://ithelp.ithome.com.tw/upload/images/20231002/201625227lYJUfJ2E9.jpg

https://ithelp.ithome.com.tw/upload/images/20231002/20162522tPIxJofB77.jpg

https://ithelp.ithome.com.tw/upload/images/20231002/20162522lpbe4Qbd5q.jpg

從目前的測試來說,使用中英文 prompt 產生影像的效果都是不錯的(不過它們都還是簡單的 prompt),不過英文 prompt 得到的貓咪影像似乎有比較高的機率得到類似卡通圖的結果,而使用中文 prompt 得到的貓咪影像就比較接近照片。也許,不同語言描述同樣的物件或場景時,模型預設要畫的風格會有所不同,這是今天的測試觀察到比較有趣的地方~/images/emoticon/emoticon07.gif

組合技-利用 ChatGPT 產生合適的 prompt

如果不太會寫 prompt 怎麼辦呢?之前我在曾吉弘博士的生成式工具講座聽到一個不錯的想法,那就是用文字生成工具 ChatGPT 幫你產生適合的 prompt!

這裡,我想嘗試用 Bing Image Creator 產生一些書中描寫的場景~

首先,我從喜歡的散文中選擇了一段場景描寫的文字:
「遠遠就看到出口處的向日葵,正對著剛剛走出花之都公園的我們。更遠處的灑水器潑灑著水花,戀人絮語一般落在花田間,輝煌而短暫的流星雨,吸引所有人的注意。」
--林達陽《恆溫行李》

直接輸入這段文字,得到的生成影像是這樣的:
https://ithelp.ithome.com.tw/upload/images/20231002/20162522o64zVFa3d4.jpg

而我們可以用以下的方式,讓 ChatGPT 將文字轉換為適合輸入給 DALL·E 的 prompt:
https://ithelp.ithome.com.tw/upload/images/20231002/201625225R3Dybwzzf.jpg

再將產生的英文 prompt 輸入到 Bing Image Creator,得到的結果如下:
https://ithelp.ithome.com.tw/upload/images/20231002/20162522Dny0ghf6Nz.jpg

從以上的結果可以注意到,如果輸入的文字比較複雜,產生的影像可能就會包含一些看似相關但又不太成形的文字。除此之外,在原文中流星雨似乎是在比喻灑水器潑灑出的水花,直接輸入中文時模型就產生流星雨的場景,而轉換成英文 prompt 得到的影像就是花田灑水的景象。因此,使用轉換後的英文 prompt 產生的影像似乎比較精確一點~

不過由於這個比喻並沒有很明顯,本來就容易造成模型的誤導,所以在生成模型時,用明確的描述代替隱喻應該會更能產生精確的影像~/images/emoticon/emoticon12.gif


上一篇
[Day 22] 各式各樣的 AI 文字生圖服務 - Midjourney、Stable Diffusion、DALL·E、Bing Image Creator、Imagen
下一篇
[Day 24] Stable Diffusion Online 使用介紹與試玩紀錄(一)
系列文
圖像生成 AI 的原理與應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言