[Day 15] flow-based model 的數學原理（二）

2023 iThome 鐵人賽

DAY 15

AI & Data

圖像生成 AI 的原理與應用系列第 15 篇

15th鐵人賽 flow-based model 流模型深度學習

hard_fish

2023-09-24 23:07:27

1142 瀏覽

分享至

接續昨天的文章，今天要介紹的是 flow-based model 如何估計真實影像的機率分布，而這部分內容會用到一些線性代數和微積分的概念或定理，還不瞭解的話可以先參考前一篇文[Day 14] Flow-based model 的數學原理（一）～

首先回顧一下 flow-based model 生成影像的過程：

（圖片來源：Flow-based Deep Generative Models | Lilian Weng）

如同其他生成影像的過程，一開始都會從常態分布（或其他較簡單的分布）抽樣得到 code 向量 z0，通過模型最終產生影像 x。不過 flow-based model 由於限制 generator 必須是可逆函數（如此才能計算得到影像分布 p(x)，會讓單個 generator 產生影像的能力受限，因此必須串接多個 generator 才能達到比較好的影像效果。

因此 flow-based model 詳細的生成影像過程會是：常態分布抽樣得到的 code 向量 z0 通過第一個 generator f1 得到中間向量 z1，z1 所屬的分布會比常態分布更複雜一點。而 z1 會再通過下一個 generator f2，得到 z2，z2 的分布又會比 z1 的分布更複雜。以此類推，直到通過 K 個 generator 得到影像 x，假設這 K 個 generators 接在一起有足夠的學習能力，我們就能將 code 分布一步一步轉換到近似真實影像的分布。

根據昨天介紹的內容，當我們用 p(x) 代表影像的分布， π(z) 代表 code 的分布，G(z) 為 generator，其反函數 G^-1(x) 為 encoder，我們可以這樣表示影像分布 p(x)：