Day29. 生成圖像 Prompt 與創意概念

2025 iThome 鐵人賽

DAY 29

生成式 AI

可愛又迷人的提示詞工程 Prompt Engineering系列第 29 篇

17th鐵人賽

MUKIwu

2025-10-12 01:24:27

178 瀏覽

分享至

AI 繪圖工具如 Stable Diffusion、Midjourney、DALL·E 3 的問世，讓文字變影像成為創作者的日常。但如果我們實際使用過，就會發現一件事：同樣一句話，由不同人寫，生成的內容完全不一樣，這就是生成圖像的核心，Prompt 不只是指令，還是一種語意設計語言

從描述到構圖：Prompt 的三層語義結構

要讓 AI 理解我們的創意概念，不能只是告訴它要畫什麼，而要設計一個能引導構圖的語意結構。我們可以把圖像 Prompt 拆解成三個層次：

主體語意

用來定義畫面的核心對象與動作，也就是整張圖的誰與在做什麼，這是 Prompt 的基礎，決定了畫面的基本內容，這一層描述了人物與場景，但尚未形成具體的視覺風格與構圖

a cyberpunk samurai walking through neon-lit Tokyo street

美學語意

用來定義風格、氛圍、色調、構圖視角等感官層面的元素。如果說主體語意是名詞，這一層就是豐富畫面的形容詞，它讓 AI 不只是生成主題，還可以生成氛圍

ultra wide shot, cinematic lighting, volumetric fog, reflective puddles, high contrast, film grain

控制語意

負責精準控制畫面結構、解析度與細節層次

這一層偏向技術性，常見於 Stable Diffusion 或 ComfyUI 的進階應用，透過參數或外部訊號讓創意變成可重現的設計

參數控制：直接在 Prompt 中加入模型支援的參數
```
-ar 16:9 --style raw --v 6 --chaos 20 --quality 2
``
```
結構控制：透過 ControlNet 或 T2I Adapter，輸入姿勢、線稿、深度圖等控制信號，精準掌握畫面佈局。

模糊反而是一種創意

在文字生成任務中，我們追求精確；但在圖像生成裡，模糊反而是一種創意空間。例如這段描述：

a dream made of glass and smoke

這句話若拿去當文案會顯得抽象，但對圖像模型來說卻是充滿詩意的提示

模型會根據訓練資料中與 dream、glass、smoke 相關的語義關聯，自動構成新的視覺組合。這就是生成模型的語義融合能力

真正厲害的圖像 Prompt，往往介於可視化的具體性與詩意的模糊性之間。這也是為什麼專業創作者會保留半明確的描述，讓 AI 有詮釋的空間。

a portrait of a forgotten god, light breaking through dust, reminiscent of ancient marble

你不需要告訴模型是哪位神、哪個時代，它會運用自身的想像力創造一個獨特的版本給你

製作自己的模板

若想長期產出穩定的創意結果，可以建立自己的提示詞結構模板，我們就能在不同主題間快速切換風格，同時保留創作的一致性

以下是一個「可模組化」的提示詞範例模板：

主題 + 情緒/氛圍 + 風格 + 構圖 + 光影 + 材質 + 鏡頭參數 + 細節強度

A mystical forest at dawn, soft sunlight filtering through mist, cinematic lighting, shot with a 35mm lens, hyperrealistic, rendered in Unreal Engine, 8K ultra detail

控制語序權重

Stable Diffusion 與 Midjourney 都會根據語序與權重影響結果。你可以用括號或權重符號 ()、[] 來控制語意強度，讓模型更聚焦於你想強調的部分。

(masterpiece:1.3), (detailed forest:1.2), (fog:0.8)

建立自己的創意語意地圖

當我們談論創意概念時，不該只是一張圖，而是一整個世界觀的語意結構。這時可以用脈絡工程的思維，為 AI 建立概念層級上下文

分層設計的好處包含：

創意的一致性：同一概念可生成多張風格一致的圖像
重用：不同場景可重用相同概念元素。
工程化：未來能自動生成系列作品，例如品牌風格板、角色設定稿

實作延伸：讓語意「可控制」

在 Stable Diffusion 或 ComfyUI 這類系統中，我們可以結合多種工具，打造一個可精準控制的生成工作流：

Prompt Encoder (文字控制)
ControlNet (結構控制)
LoRA / Embedding (風格注入)

舉例來說，如果要生成一系列「以自然與科技融合為主題的品牌產品視覺」，可以設計一個共享的視覺，包含相同的風格、光影、鏡頭感和色彩基調。兩張圖的變化將主要來自於主體和構圖，這樣既能看出是系列作品，又具備各自的獨特性

單品特寫

這張圖的目的是聚焦單一產品，展現其核心魅力，適合做為主視覺

(masterpiece:1.2), best quality, ultra-detailed, photorealistic product shot, sleek, minimalist aesthetic. A single (translucent serum bottle with a silver cap:1.3), centered, macro photography. It rests on a bed of (soft glowing moss:1.1) and dewy ferns. (cinematic volumetric lighting:1.2), ethereal glow, soft shadows, shot on 85mm lens, shallow depth of field, bokeh background, 8K UHD.

系列合集

這張圖展示多個產品，強調品牌的完整性與系列感

(masterpiece:1.2), best quality, ultra-detailed, photorealistic product shot, sleek, minimalist aesthetic. A (set of three matching white ceramic cosmetic jars:1.3), arranged in a gentle arc. Angled shot, slightly wider view. They are placed on a smooth, dark stone surface, surrounded by (holographic data streams that look like glowing roots:1.2). (cinematic volumetric lighting:1.2), ethereal glow, reflected light on the stone surface, shot on 85mm lens, shallow depth of field, bokeh background, 8K UHD.

我們開頭使用 (masterpiece:1.2), best quality 等詞彙來提高畫質，用 ( ) 和 :數字 增加特定元素的權重，例如 (minimalist ceramic bottle:1.3) 會讓模型更加專注於生成一個高品質的瓶子，將「自然與科技融合」這個抽象概念具象化為 bioluminescent flora 和 holographic data streams resembling vines

透過這種方式，每張圖既有創意變化，又能保留統一的品牌語義結構