今天要來介紹兩個好用文本生成圖像的軟體
一、Stable Diffusion
- 潛在擴散模型(Latent Diffusion Model, LDM)
- 傳統擴散模型在高維像素空間中運作,耗費龐大算力。
- Stable Diffusion 則先將影像壓縮到潛在空間(Latent Space),再進行擴散與還原,大幅減少運算需求。
- 開源與可微調
- 模型與程式碼全面開放,社群能訓練 LoRA、DreamBooth 或各種自訂模型。
- 發展出大量的風格:動漫風格、寫實攝影、插畫、建築設計等專用模型。
- 精準控制
- 包含文字提示,還能結合 圖生圖(img2img)、深度圖(depth map)、控制網(ControlNet)
二、ComfyUI
隨著 Stable Diffusion 生態擴展,傳統的 GUI(例如 Automatic1111 WebUI)雖然強大,但在 工作流複雜度上有限制,因此ComfyUI崛起。
- 節點式工作流(Node-based Workflow)
- 類似 Blender、Nuke、Unreal Engine 的節點圖形介面。
- 每個功能(載入模型、文字編碼、噪聲生成 等)都是一個節點,可以自由拼接。
- 模組化
- 可以自訂節點,並快速開發各種新功能(如 AnimateDiff、ControlNet 的延伸版本)。
- 使用者能建立可重複使用的流程模板。
- 可視化
明天來介紹操作流程~~