iT邦幫忙

2023 iThome 鐵人賽

DAY 6
0
AI & Data

Diffusion 模型、物件偵測Yolo v7& Yolo v4 系列 第 6

DAY 06 Stable Diffusion如何將想法化為圖片

  • 分享至 

  • xImage
  •  

生成式模組不斷推陳出新,從最一開始的GAN到之後演進的新模組,我們逐漸了解到這個可能取代人類大部分勞力工作的力量是什麼面貌。

上一篇我們講到了,DDPM擴散式降噪模型是如何重複去噪達到漂亮的圖片,那我們要如何精確地產生出我們要的圖片呢?,假設你想製作一個使用文本生成圖片的模型。 您的目的是給出一段文本,然後給出一張隨機圖片(例如噪聲圖片)。 模型就可以幫助您生成與文字描述相匹配的逼真圖片,例如:

文字描述就像是一个指引(guidance),幫助模型生成更符合語義信息的圖片。 然而,語義學習畢竟是複雜的。 我們能否退一步,讓模型能夠生成逼真的圖像?
例如,如果你給模型餵一堆賽博朋克風格的圖片,讓模型學習賽博朋克風格的分佈信息,然後給模型餵隨機噪聲,就可以讓模型產生一張逼真的賽博朋克照片。 或者給模型餵一堆人臉圖片,讓模型生成一張真實的人臉。 同樣,我們也可以選擇給訓練好的模型餵一張帶有一些信息的圖片,比如一張混有噪聲的人臉,讓模型幫我們去除噪聲。

DDPM的訓練流程

DDPM的訓練過程分為兩個步驟

  • Diffusion Process (又被稱為Forward Process)
  • Denoise Process(又被稱為Reverse Process)

一步步加噪的過程,就被稱為Diffusion Process;一步步去噪的過程,就被稱為Denoise Process。我們来詳細看這兩個步驟

(以上圖片概念性解釋diffusion model的訓練目標。)

Diffusion model的核心精神是學習一個逐步denoise的過程。

在訓練模型時,逐步地將原圖加入雜訊。具體上來說,使用一個高斯分布一次又一次地在原圖上打上很小的雜訊,然後讓網路來學習如何reverse這個雜訊。

Variational lower bound

但所有 ML 訓練的背後,通常都有一套數學依據。 DDPM 的訓練方法確實就像 VAE 一樣簡單,但有心想深究 diffusion model ,還是需要理解為什麼直接對網路預測的 noise計算 L2 loss可以是有效的 loss function。

背後的理論就是 Variational lower bound。

真的很難想像這些圖片生成任務,能夠從文字中將這些 latent space與影像連結,並且成功的生成出這些根本不存在的圖片。

這篇文章關於 diffusion model的理論介紹就到這邊了。先聲明,上面所牽扯到的數學推導真的太過於複雜,因此內容比較偏向解釋為什麼這樣可以訓練,而不是真正的細節推導。如果對於真正的推導有興趣,務必參考原論文

怕寫錯得不夠精確。如果有讀者看到描述不當或是不正確之處,歡迎協助指證,感謝!

參考資料

High-Resolution Image Synthesis with Latent Diffusion Models

https://medium.com/ai-blog-tw/%E9%82%8A%E5%AF%A6%E4%BD%9C%E9%82%8A%E5%AD%B8%E7%BF%92diffusion-model-%E5%BE%9Eddpm%E7%9A%84%E7%B0%A1%E5%8C%96%E6%A6%82%E5%BF%B5%E7%90%86%E8%A7%A3-4c565a1c09c

https://zhuanlan.zhihu.com/p/637815071


上一篇
DAY 05 理解Diffusion Model: 來自DDPM的簡化概念
下一篇
DAY 07 Civitai模型下載及安裝
系列文
Diffusion 模型、物件偵測Yolo v7& Yolo v4 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言