AI 繪圖工具如 Stable Diffusion、Midjourney、DALL·E 3 的問世,讓文字變影像成為創作者的日常。但如果我們實際使用過,就會發現一件事:同樣一句話,由不同人寫,生成的內容完全不一樣,這就是生成圖像的核心,Prompt 不只是指令,還是一種語意設計語言
要讓 AI 理解我們的創意概念,不能只是告訴它要畫什麼,而要設計一個能引導構圖的語意結構。我們可以把圖像 Prompt 拆解成三個層次:
用來定義畫面的核心對象與動作,也就是整張圖的誰與在做什麼,這是 Prompt 的基礎,決定了畫面的基本內容,這一層描述了人物與場景,但尚未形成具體的視覺風格與構圖
a cyberpunk samurai walking through neon-lit Tokyo street
用來定義風格、氛圍、色調、構圖視角等感官層面的元素。如果說主體語意是名詞,這一層就是豐富畫面的形容詞,它讓 AI 不只是生成主題,還可以生成氛圍
ultra wide shot, cinematic lighting, volumetric fog, reflective puddles, high contrast, film grain
負責精準控制畫面結構、解析度與細節層次
這一層偏向技術性,常見於 Stable Diffusion 或 ComfyUI 的進階應用,透過參數或外部訊號讓創意變成可重現的設計
參數控制:直接在 Prompt 中加入模型支援的參數
-ar 16:9 --style raw --v 6 --chaos 20 --quality 2
``
結構控制:透過 ControlNet 或 T2I Adapter,輸入姿勢、線稿、深度圖等控制信號,精準掌握畫面佈局。
在文字生成任務中,我們追求精確;但在圖像生成裡,模糊反而是一種創意空間。例如這段描述:
a dream made of glass and smoke
這句話若拿去當文案會顯得抽象,但對圖像模型來說卻是充滿詩意的提示
模型會根據訓練資料中與 dream、glass、smoke 相關的語義關聯,自動構成新的視覺組合。這就是生成模型的語義融合能力
真正厲害的圖像 Prompt,往往介於可視化的具體性與詩意的模糊性之間。這也是為什麼專業創作者會保留半明確的描述,讓 AI 有詮釋的空間。
a portrait of a forgotten god, light breaking through dust, reminiscent of ancient marble
你不需要告訴模型是哪位神、哪個時代,它會運用自身的想像力創造一個獨特的版本給你
若想長期產出穩定的創意結果,可以建立自己的提示詞結構模板,我們就能在不同主題間快速切換風格,同時保留創作的一致性
以下是一個「可模組化」的提示詞範例模板:
主題 + 情緒/氛圍 + 風格 + 構圖 + 光影 + 材質 + 鏡頭參數 + 細節強度
A mystical forest at dawn, soft sunlight filtering through mist, cinematic lighting, shot with a 35mm lens, hyperrealistic, rendered in Unreal Engine, 8K ultra detail
Stable Diffusion 與 Midjourney 都會根據語序與權重影響結果。你可以用括號或權重符號 ()
、[]
來控制語意強度,讓模型更聚焦於你想強調的部分。
(masterpiece:1.3), (detailed forest:1.2), (fog:0.8)
當我們談論創意概念時,不該只是一張圖,而是一整個世界觀的語意結構。這時可以用脈絡工程的思維,為 AI 建立概念層級上下文
分層設計的好處包含:
在 Stable Diffusion 或 ComfyUI 這類系統中,我們可以結合多種工具,打造一個可精準控制的生成工作流:
舉例來說,如果要生成一系列「以自然與科技融合為主題的品牌產品視覺」,可以設計一個共享的視覺,包含相同的風格、光影、鏡頭感和色彩基調。兩張圖的變化將主要來自於主體和構圖,這樣既能看出是系列作品,又具備各自的獨特性
這張圖的目的是聚焦單一產品,展現其核心魅力,適合做為主視覺
(masterpiece:1.2), best quality, ultra-detailed, photorealistic product shot, sleek, minimalist aesthetic. A single (translucent serum bottle with a silver cap:1.3), centered, macro photography. It rests on a bed of (soft glowing moss:1.1) and dewy ferns. (cinematic volumetric lighting:1.2), ethereal glow, soft shadows, shot on 85mm lens, shallow depth of field, bokeh background, 8K UHD.
這張圖展示多個產品,強調品牌的完整性與系列感
(masterpiece:1.2), best quality, ultra-detailed, photorealistic product shot, sleek, minimalist aesthetic. A (set of three matching white ceramic cosmetic jars:1.3), arranged in a gentle arc. Angled shot, slightly wider view. They are placed on a smooth, dark stone surface, surrounded by (holographic data streams that look like glowing roots:1.2). (cinematic volumetric lighting:1.2), ethereal glow, reflected light on the stone surface, shot on 85mm lens, shallow depth of field, bokeh background, 8K UHD.
我們開頭使用 (masterpiece:1.2), best quality
等詞彙來提高畫質,用 ( )
和 :數字
增加特定元素的權重,例如 (minimalist ceramic bottle:1.3)
會讓模型更加專注於生成一個高品質的瓶子,將「自然與科技融合」這個抽象概念具象化為 bioluminescent flora
和 holographic data streams resembling vines
透過這種方式,每張圖既有創意變化,又能保留統一的品牌語義結構
影像生成的 Prompt 是一種結合了語意建構、美學思維與技術約束的創作語法。它讓我們得以用文字去設計畫面,我們希望能用最簡潔的語意,創造最豐富的視覺,因為 Prompt Engineering 的終極目標,是讓 AI 看見我們想像的世界