iT邦幫忙

2024 iThome 鐵人賽

DAY 6
0
AI/ ML & Data

認識AI與NLP的30日旅行團系列 第 6

Day6 LoRA?Control Net?VAE?來講講AI繪圖中的各種參數和專業術語

  • 分享至 

  • xImage
  •  

在生成式AI出現後,接著浮現的就是一群「AI詠唱師」,或者又稱為「AI溝通師」、「AI指令(Prompt)生成師」。

在詢問AI時,不同的指令,生成結果可能會天差地遠,因此要如何有效率、有技巧的輸入指令,成為了一件值得研究的事情。

除了各種詠唱師、溝通師之外,還可以在網路上找到各種不同的題示詞大全,還有prompt商城,在賣特定的指令,豐富程度讓人咋舌。

而圖像生成領域也一樣,甚至比起文字方面,要注意的眉眉角角更多,圖片大小、風格、禁止詞等等的應有盡有,接下來今天的內容就來講講這些事情。


從Tensor Art的面板來認識這些小細節

為什麼要用Tensor Art呢?在前一篇文章的介紹中,有稍微提到Tensor Art的特點,就是他既免費,自由度又高,對於每一項功能的解釋也挺詳細的。

所以使用他的話,其一,因為有較高的免費額度,一般沒接觸過的人上手程度比較低,想玩玩看的人看完文章介紹點點文章就能進去了,整體來說會比較方便;第二就是,因為自由度高,可以設置的功能多,放在這邊可以介紹的也比較多。

接下來我們會從註冊開始,一步一步走近AI繪圖的世界~

登入Tensor Art

Tenser Art 官網
如果點擊這個連結,從這裡登入,你跟我都會得到額外的點數哦~

相信使用網路多年的各位,對各種網站的登入都不陌生,那我們這邊就不介紹了(喂

好啦,還是大概介紹一下,就如下圖,登入的途徑有三個:Google、Discord、一般Email,選擇任何一個方法登入後,就可以開始使用繪圖的功能了!

登入圖片

免費的帳號每天可以獲得100點的積分,如果是使用我上面的專屬連結進入的話,可以再多獲得接近100積分,如果只是要嘗試的話,相信這樣的額度足夠完好一陣子了。

模型、LoRA、Control Net、VAE

點擊上方色彩鮮艷的「在線生圖」,就可以進到下列的畫面,接著我們先從左側紅框中最重要的模型和LoRA開始解釋起吧!

模型、LoRA、Control Net、VAE圖片

模型

Tensor Art中可以讓使用者自行選擇想要使用的基底模型,其中有一些是官方提供,也有一些是網友自行上傳的。

目前主要的分類有SD系列、Pony、HunYuanDiT、Playground v2、PixArt、FLUX……等等。

SD(Stable Diffusion)系列
最初的SD(Stable Diffusion)是由Stability公司推出,經過這段時間的發展,光是系列,其中包含的各種模型就包羅萬象,有寫實、動漫、類3D模型,也有一些獸人(?)、國風水墨的模型,不同模型有不同的訓練偏重,生成出的圖片也就比較有特定範圍,可以依照需求去選擇。

Pony 系列
Pony類的模型則會比較偏向動漫畫風格,即使提示詞是偏向寫實真人,最後生出來的圖片也會帶一點點動漫的感覺,至於原因?別問,問就是開創者喜歡Little Pony這個動畫。

這是一個參照了SDXL架構的模型,所以基礎也是類似SD系列的,最大的特色除了偏向動漫風格外,對一些「特殊領域」禁詞的管控也比較沒那麼嚴格,許多在其他模型上生不出來的圖片他偏偏就可以做出來,有興趣的可以去試試看。

有一點可以注意,在逛網站時,會發現許多使用Pony模型生成圖片的提示詞中帶有score_5_up、score_9這種跟圖片內容好像沒有關係的prompt,這是什麼呢?

其實這跟這系列模型的開創者有關,他用好幾個月的時間,用肉眼去標籤了幾萬張圖片,讓電腦知道什麼叫做「好的」圖片,並對圖片進行了評分,所以那些score就代表你告訴電腦,我想要生成的圖片至少要達到哪個質量,從4~9分,可以自己去訂定。

HunYuanDiT 系列
又稱混元DiT模型,是騰訊開發出來的,Diffusion Transformer(DiT)架構的模型,整體相較於其他系列,對於中文的理解程度較高,因為訓練資廖的關係,也會比較偏向亞洲風格,在人種、建築方面都是。

PixArt 系列
這個系列的基底模型是由華維諾亞方舟實驗室開發的模型,當初推出時最大的賣點是相較於Stable Diffusion v1.5,這個模型只需要10%左右的訓練時間、1%的訓練成本,更難能可貴的是,在低成本的同時還能維持高質量、可兼容Control net。

FLUX 系列
這個系列是由Black Forest Labs開發並推行的,這間公司比較特別的是包含了SD源公司的員工。

在這系列模型中最特別的是,解決了人體解剖方面的問題--這不是說大家都在用AI學解剖哈--這主要是在說AI繪圖剛出現時最被大家嫌棄的部分,在手、肢體會有扭曲或多出一隻手指的問題。

LoRA

光是模型的多樣性就介紹不完了,需要大家一個個去體驗,那我們接下來說說LoRA是什麼。

LoRA的全文是Low-Rank Adaption of LLMs,主要的用處是對大模型高校微調,原理是餵給他們相似風格的圖片,生成相似影像,檔案相對基礎模型也較小。

講簡單點,LoRA就像是對大模型出來的圖片另外套上了一個「圖層」,之後將兩者合併,最後生成的圖片就會局限在所使用LoRA的風格。所以在套上LoRA後,可以自己調LoRA的參數,越高表示和LoRA中風格結合的越多。

基礎模型只有一個,但可以搭配多個LoRA,Tensor Art中免費版最多可以套用3個LoRA,付費會員則可以套用到最多6個。

Control Net

Control Net是一種增強技術,主要運用了Conditional Generative Adversarial Networks(條件生成對抗網路)的技術,透過引入額外的引導資料,比如圖像標記(annotation)、文字描述,在原先圖片生成的基礎上添加了「控制」的機制,讓使用者在生成圖片的時候可以讓模型更理解自己的需求,生成符合自己預期的內容。

可以控制的方面有下列幾種:

  1. 線稿類:透過給予邊界或參考圖,控制生成圖片的形狀或結構,比如圖片中物品的空間、人物的固定姿勢等等。Tensor Art中的Canny、Scribble等就屬於此類,前者比較針對物體邊緣的提取,用於強調物體輪廓或形狀時;後者則可以很好的去處理手繪塗鴉等的複雜紋理。
  2. 色塊類:同樣也是捕捉參考圖,但不是關注邊緣,而是整體色塊。Deepth模型就是此種類型,可以從色塊中捕捉物體的深度,讓整個圖片的呈現更加立體。
  3. 精細控制類:根據參考圖片的內容進行更仔細的修整。比如Tensor Art中的Tile、Openpose兩個都屬於此類,Tile可以將圖片變的更加清晰,對細節處理也更精細,Openpose則是可以捕捉參考圖中的人物動作與姿勢,生成相應角度和位置的圖片。
  4. 對圖片微調:這是一個比較特別的分類,像其中的Reference-only,就是一種,這是一種預處理器(preprocessor),可以識別圖片中的人物或場景,比如給他一個女生坐在桌前的圖片,給他提示詞「一個女孩在吃飯」,他就會給你一張女孩坐在桌前吃飯的圖片。
  5. 風格轉換:根據參考圖片生成風格相似的圖片。

VAE

在LoRA下方可以看到有一個VAE的選項,VAE的全名是Variable Auto Encoder,就像是一個「濾鏡」,可以增進圖像的顏色,或是修復手部、面部的瑕疵。本身因為只對比較少的空間進行處理,所以花費的時間會比較小。

設置-採樣、隨機種子、ENSD

在設置的地方可以自己調生成出圖片的長寬、大小、形狀等等,免費版的上限是1536x1024。

設置圖片

而其中的採樣、隨機種子等等又是讓人不好理解的參數,這邊就來介紹介紹。

採樣(Sampler)

採樣器
其實採樣器在前一天我們就有談到,我們昨天有說,SD模型在生成圖像時,會先產生充滿雜訊的圖片,再透過採樣器(Sampler)和解碼器(Encoder)來去除,這邊我們要說的就是採樣器。

其中DPM生成出的圖片品質更好,而Euler、DDIM生成的速度則更快,這些是網站上給的資料,可以依照自己的需求去評斷要選擇哪一種方式。當然如果去Tensor art內看,會發現可以選的模型類別根本不只這三種,而是多到又讓人頭昏昏。

SD學習筆記| Sampler全攻略- 採樣器要怎樣選擇?這個網站的作者有統整出一些採樣器的優缺點,有興趣的可以去逛逛,這邊就不再細講。

採樣次數
生成圖片時的迭代次數,次數越高圖片的畫面效果會更好,但也會花比較多的時間。基本上建議用20~30,免費版本可以使用的最高上限是25,付費板可以調高到60。

提示詞相關性(CFG Scale)
如字面意思,調的越高越接近提示詞的描述,低的話則會有更多創意的想法出現。

隨機種子(Seed)

隨機種子是圖像生成器在生成圖片時排列隨機序列的數值,是非常重要的一個數值。這個數值可以保證「可重複性」,也就是說,再參數都一樣的情況下,只要輸入相同的隨機種子數值,就可以生成出同樣的圖片。

大家都知道,在網路上很多人都會公布出自己下的指令,但是試過的人也都了解,即使提示詞一模一樣,生成出來的圖片也會不一樣,隨機種子就是保障生成同樣圖片功能的數值。

但有些人可能會發現,明明我點選和其他人用一樣的隨機種子,為什麼生出來的圖片還是不一樣?這就要來講一下ENSD了。

ENSD(eta noise seed delta)

中文翻譯是eta噪聲種子增量,會隨機微調改變SEED,任何非0整數都會產生效果,這也就導致即使隨機種子相同,生成圖片還是不同的情況發生。

這種時候就要點一下隨機種子下的「高級設置」,把ENSD的數值調整到0,就沒問題啦~

高清修復

簡單來說,就是將生成的圖片變大並維持相同的樣貌。和圖片大小一樣,免費使用的上限是1536x1024,要購買專業版才能變高。

高清修復圖片

高清修復採樣次數
採樣次數同樣是限制在25,不過網站也有提醒,在參數大於30後,效果有明顯下降。

重繪噪聲強度
從0~1,網站給出的建議是0.3,跟採樣次數會有相關,可以看看AI繪畫高清修復測試網站的測試,總結來說「當採樣次數極小(1,3,5),且重繪幅度高(大於0.7)時,畫面會重回雜訊模式,無法出圖;在測試表右下角,當重繪幅度大於0.7時,畫面會出現變化,與原圖不符」、「比較適合的參數:重繪幅度0.4—0.6,採樣次數20—50」

修復方式
不同的修復算法,也各自有著不同的效果:

依據網站所說4x-UltraSharp擅長處理寫實圖像,R-ESRGAN 4x+ Anime6B擅長動畫圖像。

至於其他的算法,部分參考了AI繪畫高清修復測試這個網站的測試,列出大概效果,實際效果當然還是要各位親自去嘗試:

  • Latent、Latent(antialiased):結果呈現水彩類性質
  • Latent (bicubic)、Latent (bicubic antialiased) 和上一項類似,但偏向油畫
  • Latent (nearest)、 Latent (nearest-exact) :純油畫感
  • None、Lanczos: 較模糊的效果
  • Nearest:噴筆的質感
  • ESRGAN_4x、SwinIR_4x:和R-ESRGAN 4x+ Anime6B結果相似,有趣的是Tensor Art的網站中在SwinIR_4x旁邊還有括號說「速度很慢!慎用!」,各位在用的時候就自行斟酌囉!
  • 2x_APISR_RRDB_GAN_generator、4x_APISR_GRL_GAN_generator:其中的APISR是Anime Picture Super Resolution(動漫圖片超級分辨率)的縮寫,所以這個模型也是針對動漫類圖片的,差別在後者可以放大到四倍。

ADetailer

ADetailer主要是針對臉、手部、肢體等畸形的狀況作修復的模型,他厲害的地方是可以自動去辨別人臉和肢體,並準確地進行局部校正。

ADetailer圖片

除了修復的功能,他還可以做到其他比如改變表情、年齡、種族(不限於人類?)、僅將LoRA作用於臉部等等,解決了SD基礎模型中會發生畸型的問題。

模型選擇
在模型的部分有三種選擇:臉、手、全身,可以依據自己的需求去選擇。

其中有Yolo、Meduapipe兩大類別,其中:

  • mediapipe-偵測的區域限制在面部,比起yolo會更精細一點點,但檢測的功能較差。
    • Full:檢測的範圍會比較大、比較全
    • short:檢測範圍較小,但偏向短小精悍
    • mesh:處理出來的圖片會比Full還要更立體、更精細
  • Yolo-對於多人的偵測比較成功,並且除了臉部,也有手、全身的修復模型可以選擇,準確度會因訓練的資料和模型版版而有區別。

提示詞 & LoRA
前面有說可以重繪表情或年齡之類,所以可以自行輸入提示詞或反提示詞,並且可以自行添加LoRA,最多只能用兩個。

置信度
網站給出的解釋是「控制模型檢測結果的可信度,增大數值可獲得更高的修復準確度,降低數值可增大修復範圍」,嗯……有點難理解。

但其實講人化的話就是,數值越高檢測的標準越高,有時候即使是臉也檢測不出來,數值越低標準則越低,有時候不是臉也會被檢測成臉(想想還挺可怕的)。

基本上可以設置在0.3。

重繪模板模糊
邊緣羽化強度,數值越小越銳利。太大或太小,重新生出來的圖片修復過的地方都會格格不入。

重繪噪聲模糊
僅限於產生不同的面部特徵,推薦0.4-0.6。


相信各位今天聽到這裡,已經對AI繪圖有更多的理解了對吧!

那就快去Tensor Art或其他的應用(可參考Day5 AI圖像生成-各家比較:從Midjourney到Tensor Art)試試手吧,有發現什麼有趣的事物歡迎在留言區分享,和大家交流哦!


上一篇
Day5 AI圖像生成-各家比較:從Midjourney到Tensor Art
下一篇
Day7 AI圖像處理-去背、圖片放大轉高清、去除物品、加入物品
系列文
認識AI與NLP的30日旅行團12
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言