Day28 Stable Diffusion和ComfyUI

2025 iThome 鐵人賽

DAY 28

AI & Data

17th鐵人賽

698 瀏覽

今天要來介紹兩個好用文本生成圖像的軟體

一、Stable Diffusion

潛在擴散模型（Latent Diffusion Model, LDM）
- 傳統擴散模型在高維像素空間中運作，耗費龐大算力。
- Stable Diffusion 則先將影像壓縮到潛在空間（Latent Space），再進行擴散與還原，大幅減少運算需求。
開源與可微調
- 模型與程式碼全面開放，社群能訓練 LoRA、DreamBooth 或各種自訂模型。
- 發展出大量的風格：動漫風格、寫實攝影、插畫、建築設計等專用模型。
精準控制
- 包含文字提示，還能結合圖生圖（img2img）、深度圖（depth map）、控制網（ControlNet）

隨著 Stable Diffusion 生態擴展，傳統的 GUI（例如 Automatic1111 WebUI）雖然強大，但在工作流複雜度上有限制，因此ComfyUI崛起。

節點式工作流（Node-based Workflow）
- 類似 Blender、Nuke、Unreal Engine 的節點圖形介面。
- 每個功能（載入模型、文字編碼、噪聲生成等）都是一個節點，可以自由拼接。
模組化
- 可以自訂節點，並快速開發各種新功能（如 AnimateDiff、ControlNet 的延伸版本）。
- 使用者能建立可重複使用的流程模板。
可視化
- 節點流程圖能清楚顯示生成邏輯，比文字指令更明瞭。