[Day 19] Diffusion Model 的數學原理（一）

2023 iThome 鐵人賽

DAY 19

AI & Data

圖像生成 AI 的原理與應用系列第 19 篇

15th鐵人賽 diffusion model 圖像生成深度學習

hard_fish

2023-09-28 21:21:58

2132 瀏覽

分享至

今天的內容主要會介紹 diffusion model 學習目標的數學形式，和之前介紹的 VAE 與 flow-based model 一樣，diffusion model 也是基於最大概似估計（maximum likelihood estimation）學習產生與真實資料接近的影像。由於之前對於最大概似估計都簡單帶過，因此在今天文章的一開始，我想先比較詳盡的介紹這個方法，以及它如何和生成任務的學習目標有關～

最大概似估計（Maximum Likelihood Estimation，MLE）

回顧一下影像生成任務的目標，就是希望生成模型能產生一個影像分布，而這個分布和真實影像分布越接近越好，也就如上圖所示。

至於什麼是 likelihood 呢？當我們從真實影像分布 p_data(x) 抽樣一些影像樣本 {x_1, x_2, ..., x_m}，然而計算生成影像分布基於現在的模型參數能產生出這些真實樣本的可能性 p_θ(xi)，就是 likelihood。而 maximum likelihood estimation 就是我們要找到一組模型參數 θ，它能讓生成影像模型產生真實樣本的可能性最大，即能最大化 likelihood 的參數組合，它的數學形式如下：

找出讓生成影像分布最有可能產生真實影像的參數，直覺上就已經蠻符合圖像生成任務所要達成的目標了，但實際上我們還可以透過一些推導，就會發現最大化 likelihood 其實就是最小化生成影像分布 p_θ(x) 和真實影像分布 p_data(x) 的 KL divergence（還記得 divergence 可以代表兩個分布的差距嗎～），對這部分有興趣可參考以下的推導：