2024 iThome 鐵人賽

DAY 6

AI/ ML & Data

認識AI與NLP的30日旅行團系列第 6 篇

Day6 LoRA？Control Net？VAE？來講講AI繪圖中的各種參數和專業術語

16th鐵人賽 lora control net vae adetailer

初墨 Roy

2024-09-20 23:58:07

4032 瀏覽

分享至

在生成式AI出現後，接著浮現的就是一群「AI詠唱師」，或者又稱為「AI溝通師」、「AI指令(Prompt)生成師」。

在詢問AI時，不同的指令，生成結果可能會天差地遠，因此要如何有效率、有技巧的輸入指令，成為了一件值得研究的事情。

除了各種詠唱師、溝通師之外，還可以在網路上找到各種不同的題示詞大全，還有prompt商城，在賣特定的指令，豐富程度讓人咋舌。

而圖像生成領域也一樣，甚至比起文字方面，要注意的眉眉角角更多，圖片大小、風格、禁止詞等等的應有盡有，接下來今天的內容就來講講這些事情。

從Tensor Art的面板來認識這些小細節

為什麼要用Tensor Art呢？在前一篇文章的介紹中，有稍微提到Tensor Art的特點，就是他既免費，自由度又高，對於每一項功能的解釋也挺詳細的。

所以使用他的話，其一，因為有較高的免費額度，一般沒接觸過的人上手程度比較低，想玩玩看的人看完文章介紹點點文章就能進去了，整體來說會比較方便；第二就是，因為自由度高，可以設置的功能多，放在這邊可以介紹的也比較多。

接下來我們會從註冊開始，一步一步走近AI繪圖的世界～

登入Tensor Art

Tenser Art 官網
如果點擊這個連結，從這裡登入，你跟我都會得到額外的點數哦～

相信使用網路多年的各位，對各種網站的登入都不陌生，那我們這邊就不介紹了（喂

好啦，還是大概介紹一下，就如下圖，登入的途徑有三個：Google、Discord、一般Email，選擇任何一個方法登入後，就可以開始使用繪圖的功能了！

登入圖片

免費的帳號每天可以獲得100點的積分，如果是使用我上面的專屬連結進入的話，可以再多獲得接近100積分，如果只是要嘗試的話，相信這樣的額度足夠完好一陣子了。

模型、LoRA、Control Net、VAE

點擊上方色彩鮮艷的「在線生圖」，就可以進到下列的畫面，接著我們先從左側紅框中最重要的模型和LoRA開始解釋起吧！

模型、LoRA、Control Net、VAE圖片

模型

Tensor Art中可以讓使用者自行選擇想要使用的基底模型，其中有一些是官方提供，也有一些是網友自行上傳的。

目前主要的分類有SD系列、Pony、HunYuanDiT、Playground v2、PixArt、FLUX……等等。

SD（Stable Diffusion）系列
最初的SD（Stable Diffusion）是由Stability公司推出，經過這段時間的發展，光是系列，其中包含的各種模型就包羅萬象，有寫實、動漫、類3D模型，也有一些獸人(?)、國風水墨的模型，不同模型有不同的訓練偏重，生成出的圖片也就比較有特定範圍，可以依照需求去選擇。

Pony 系列
Pony類的模型則會比較偏向動漫畫風格，即使提示詞是偏向寫實真人，最後生出來的圖片也會帶一點點動漫的感覺，至於原因？別問，問就是開創者喜歡Little Pony這個動畫。

這是一個參照了SDXL架構的模型，所以基礎也是類似SD系列的，最大的特色除了偏向動漫風格外，對一些「特殊領域」禁詞的管控也比較沒那麼嚴格，許多在其他模型上生不出來的圖片他偏偏就可以做出來，有興趣的可以去試試看。

有一點可以注意，在逛網站時，會發現許多使用Pony模型生成圖片的提示詞中帶有score_5_up、score_9這種跟圖片內容好像沒有關係的prompt，這是什麼呢？

其實這跟這系列模型的開創者有關，他用好幾個月的時間，用肉眼去標籤了幾萬張圖片，讓電腦知道什麼叫做「好的」圖片，並對圖片進行了評分，所以那些score就代表你告訴電腦，我想要生成的圖片至少要達到哪個質量，從4~9分，可以自己去訂定。

HunYuanDiT 系列
又稱混元DiT模型，是騰訊開發出來的，Diffusion Transformer（DiT）架構的模型，整體相較於其他系列，對於中文的理解程度較高，因為訓練資廖的關係，也會比較偏向亞洲風格，在人種、建築方面都是。

PixArt 系列
這個系列的基底模型是由華維諾亞方舟實驗室開發的模型，當初推出時最大的賣點是相較於Stable Diffusion v1.5，這個模型只需要10%左右的訓練時間、1%的訓練成本，更難能可貴的是，在低成本的同時還能維持高質量、可兼容Control net。

FLUX 系列
這個系列是由Black Forest Labs開發並推行的，這間公司比較特別的是包含了SD源公司的員工。

在這系列模型中最特別的是，解決了人體解剖方面的問題－－這不是說大家都在用AI學解剖哈－－這主要是在說AI繪圖剛出現時最被大家嫌棄的部分，在手、肢體會有扭曲或多出一隻手指的問題。

LoRA

光是模型的多樣性就介紹不完了，需要大家一個個去體驗，那我們接下來說說LoRA是什麼。

LoRA的全文是Low-Rank Adaption of LLMs，主要的用處是對大模型高校微調，原理是餵給他們相似風格的圖片，生成相似影像，檔案相對基礎模型也較小。

講簡單點，LoRA就像是對大模型出來的圖片另外套上了一個「圖層」，之後將兩者合併，最後生成的圖片就會局限在所使用LoRA的風格。所以在套上LoRA後，可以自己調LoRA的參數，越高表示和LoRA中風格結合的越多。

基礎模型只有一個，但可以搭配多個LoRA，Tensor Art中免費版最多可以套用3個LoRA，付費會員則可以套用到最多6個。

Control Net

Control Net是一種增強技術，主要運用了Conditional Generative Adversarial Networks（條件生成對抗網路）的技術，透過引入額外的引導資料，比如圖像標記（annotation）、文字描述，在原先圖片生成的基礎上添加了「控制」的機制，讓使用者在生成圖片的時候可以讓模型更理解自己的需求，生成符合自己預期的內容。

可以控制的方面有下列幾種：

線稿類：透過給予邊界或參考圖，控制生成圖片的形狀或結構，比如圖片中物品的空間、人物的固定姿勢等等。Tensor Art中的Canny、Scribble等就屬於此類，前者比較針對物體邊緣的提取，用於強調物體輪廓或形狀時；後者則可以很好的去處理手繪塗鴉等的複雜紋理。
色塊類：同樣也是捕捉參考圖，但不是關注邊緣，而是整體色塊。Deepth模型就是此種類型，可以從色塊中捕捉物體的深度，讓整個圖片的呈現更加立體。
精細控制類：根據參考圖片的內容進行更仔細的修整。比如Tensor Art中的Tile、Openpose兩個都屬於此類，Tile可以將圖片變的更加清晰，對細節處理也更精細，Openpose則是可以捕捉參考圖中的人物動作與姿勢，生成相應角度和位置的圖片。
對圖片微調：這是一個比較特別的分類，像其中的Reference-only，就是一種，這是一種預處理器（preprocessor），可以識別圖片中的人物或場景，比如給他一個女生坐在桌前的圖片，給他提示詞「一個女孩在吃飯」，他就會給你一張女孩坐在桌前吃飯的圖片。
風格轉換：根據參考圖片生成風格相似的圖片。

VAE

在LoRA下方可以看到有一個VAE的選項，VAE的全名是Variable Auto Encoder，就像是一個「濾鏡」，可以增進圖像的顏色，或是修復手部、面部的瑕疵。本身因為只對比較少的空間進行處理，所以花費的時間會比較小。

設置－採樣、隨機種子、ENSD

在設置的地方可以自己調生成出圖片的長寬、大小、形狀等等，免費版的上限是1536x1024。

設置圖片

而其中的採樣、隨機種子等等又是讓人不好理解的參數，這邊就來介紹介紹。

採樣（Sampler）

採樣器
其實採樣器在前一天我們就有談到，我們昨天有說，SD模型在生成圖像時，會先產生充滿雜訊的圖片，再透過採樣器(Sampler)和解碼器(Encoder)來去除，這邊我們要說的就是採樣器。

其中DPM生成出的圖片品質更好，而Euler、DDIM生成的速度則更快，這些是網站上給的資料，可以依照自己的需求去評斷要選擇哪一種方式。當然如果去Tensor art內看，會發現可以選的模型類別根本不只這三種，而是多到又讓人頭昏昏。

SD學習筆記| Sampler全攻略- 採樣器要怎樣選擇?這個網站的作者有統整出一些採樣器的優缺點，有興趣的可以去逛逛，這邊就不再細講。

採樣次數
生成圖片時的迭代次數，次數越高圖片的畫面效果會更好，但也會花比較多的時間。基本上建議用20~30，免費版本可以使用的最高上限是25，付費板可以調高到60。

提示詞相關性（CFG Scale）
如字面意思，調的越高越接近提示詞的描述，低的話則會有更多創意的想法出現。

隨機種子（Seed）

隨機種子是圖像生成器在生成圖片時排列隨機序列的數值，是非常重要的一個數值。這個數值可以保證「可重複性」，也就是說，再參數都一樣的情況下，只要輸入相同的隨機種子數值，就可以生成出同樣的圖片。

大家都知道，在網路上很多人都會公布出自己下的指令，但是試過的人也都了解，即使提示詞一模一樣，生成出來的圖片也會不一樣，隨機種子就是保障生成同樣圖片功能的數值。

但有些人可能會發現，明明我點選和其他人用一樣的隨機種子，為什麼生出來的圖片還是不一樣？這就要來講一下ENSD了。

ENSD（eta noise seed delta）

中文翻譯是eta噪聲種子增量，會隨機微調改變SEED，任何非0整數都會產生效果，這也就導致即使隨機種子相同，生成圖片還是不同的情況發生。

這種時候就要點一下隨機種子下的「高級設置」，把ENSD的數值調整到0，就沒問題啦～

高清修復

簡單來說，就是將生成的圖片變大並維持相同的樣貌。和圖片大小一樣，免費使用的上限是1536x1024，要購買專業版才能變高。

高清修復圖片

高清修復採樣次數
採樣次數同樣是限制在25，不過網站也有提醒，在參數大於30後，效果有明顯下降。

重繪噪聲強度
從0~1，網站給出的建議是0.3，跟採樣次數會有相關，可以看看AI繪畫高清修復測試網站的測試，總結來說「當採樣次數極小（1，3，5），且重繪幅度高（大於0.7）時，畫面會重回雜訊模式，無法出圖；在測試表右下角，當重繪幅度大於0.7時，畫面會出現變化，與原圖不符」、「比較適合的參數：重繪幅度0.4—0.6，採樣次數20—50」

修復方式
不同的修復算法，也各自有著不同的效果：

依據網站所說4x-UltraSharp擅長處理寫實圖像，R-ESRGAN 4x+ Anime6B擅長動畫圖像。

至於其他的算法，部分參考了AI繪畫高清修復測試這個網站的測試，列出大概效果，實際效果當然還是要各位親自去嘗試：

Latent、Latent（antialiased）：結果呈現水彩類性質
Latent (bicubic)、Latent (bicubic antialiased) 和上一項類似，但偏向油畫
Latent (nearest)、 Latent (nearest-exact) ：純油畫感
None、Lanczos：較模糊的效果
Nearest：噴筆的質感
ESRGAN_4x、SwinIR_4x：和R-ESRGAN 4x+ Anime6B結果相似，有趣的是Tensor Art的網站中在SwinIR_4x旁邊還有括號說「速度很慢！慎用！」，各位在用的時候就自行斟酌囉！
2x_APISR_RRDB_GAN_generator、4x_APISR_GRL_GAN_generator：其中的APISR是Anime Picture Super Resolution（動漫圖片超級分辨率）的縮寫，所以這個模型也是針對動漫類圖片的，差別在後者可以放大到四倍。

ADetailer

ADetailer主要是針對臉、手部、肢體等畸形的狀況作修復的模型，他厲害的地方是可以自動去辨別人臉和肢體，並準確地進行局部校正。

ADetailer圖片

除了修復的功能，他還可以做到其他比如改變表情、年齡、種族（不限於人類？）、僅將LoRA作用於臉部等等，解決了SD基礎模型中會發生畸型的問題。

模型選擇
在模型的部分有三種選擇：臉、手、全身，可以依據自己的需求去選擇。

其中有Yolo、Meduapipe兩大類別，其中：

mediapipe－偵測的區域限制在面部，比起yolo會更精細一點點，但檢測的功能較差。
- Full：檢測的範圍會比較大、比較全
- short：檢測範圍較小，但偏向短小精悍
- mesh：處理出來的圖片會比Full還要更立體、更精細
Yolo－對於多人的偵測比較成功，並且除了臉部，也有手、全身的修復模型可以選擇，準確度會因訓練的資料和模型版版而有區別。

提示詞 & LoRA
前面有說可以重繪表情或年齡之類，所以可以自行輸入提示詞或反提示詞，並且可以自行添加LoRA，最多只能用兩個。

置信度
網站給出的解釋是「控制模型檢測結果的可信度，增大數值可獲得更高的修復準確度，降低數值可增大修復範圍」，嗯……有點難理解。

但其實講人化的話就是，數值越高檢測的標準越高，有時候即使是臉也檢測不出來，數值越低標準則越低，有時候不是臉也會被檢測成臉（想想還挺可怕的）。

基本上可以設置在0.3。

重繪模板模糊
邊緣羽化強度，數值越小越銳利。太大或太小，重新生出來的圖片修復過的地方都會格格不入。

重繪噪聲模糊
僅限於產生不同的面部特徵，推薦0.4-0.6。

相信各位今天聽到這裡，已經對AI繪圖有更多的理解了對吧！

那就快去Tensor Art或其他的應用（可參考Day5 AI圖像生成－各家比較：從Midjourney到Tensor Art）試試手吧，有發現什麼有趣的事物歡迎在留言區分享，和大家交流哦！

Day5 AI圖像生成－各家比較：從Midjourney到Tensor Art

Day7 AI圖像處理－去背、圖片放大轉高清、去除物品、加入物品

系列文

認識AI與NLP的30日旅行團共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

認識AI與NLP的30日旅行團系列 第 6 篇