【AI筆記】30天從論文入門到 Pytorch 實戰：T2I Adapter的工作原理 Day 15

2024 iThome 鐵人賽

DAY 16

AI/ ML & Data

【AI筆記】30天從論文入門到 Pytorch 實戰系列第 16 篇

16th鐵人賽

fan84sunny

2024-08-18 00:04:14

282 瀏覽

分享至

Paper| Code | 中文Note

T2I-Adapter

介紹

與前述Control-Net/Composer的出發點一致的是，希望通過更多，更細粒度的控制條件

內部知識對齊：T2I-Adapter 通過學習將外部控制信號與 T2I 模型的內部知識對齊，提供更精確的生成控制。
多尺度特徵提取：Adapter使用多尺度特徵提取塊來處理不同解析度的特徵，從而實現更精細的控制。
非均勻時間步長採樣：在訓練過程中，使用非均勻時間步長採樣策略來增強Adapter的指導能力。
這些特點使得 T2I-Adapter 在不影響原有模型生成能力的情況下，提供了更高的控制精度和靈活性。

架構

它由4個特徵提取塊和3 個下採樣塊組成，

改變原始條件輸入的特徵分辨率，將其降採樣到64 (pixel unshuffle operation )。
Pixel-unshuffle 是一種操作，具體來說，它將影像的pixel不要打亂位置關係，以便在較低解析度下保留更多的顏色和結構資訊。這種技術在影像生成和處理中非常有用，特別是在需要保留影像細節的情況下。

可能是怕在做 Conv 的時候位置關係會亂掉
之後基於不同的特徵維度，對原始的stable diffusion model進行微調

這邊需要注意的是，不同的特徵維度要接入到對應的網絡層中
輸出的4個features會被以加法的方式，加回去Frozen SD encoder layer 中各別4個layer的feature，就可以達到控制SD的生成效果。

總結

T2I-Adapter

可以組合多個Adapter
在多個Adapter控制的情況下，指導特徵的組合需要手動調整，否則可能不會達到預期的效果
雖然Adapter本身輕量 77 M，但仍需要一定的訓練時間和資源。

我認為T2I-Adapter與ControlNet最大的不同點在於T2I-Adapter特徵輸入的地方在Encoder，而ControlNet在Decoder，我在其他篇論文中有看到對於特徵輸入的影響，好像都是在Decoder較多，但T2I-Adapter有實驗過才選擇在Encoder。

不過目前用FID評估指標去評估生成品質還是很不穩定，他無法準確的代表人類評估的品質。

常有人把它和ControlNet進行比較，其實生成的品質也可以明顯看得出來，ControlNet帶來的細節都比Adapter好太多，可能ControlNet直接使用SD的架構去跟Frozen SD進行融合帶來的效果會比自己設計一個全新的Adapter來得好，但也可能因為Adapter的複雜度比ControlNet來說低很多才導致特徵提取得不是很好。個人認為有利有弊，看個人想要選擇怎樣的效能/結果。