iT邦幫忙

2025 iThome 鐵人賽

DAY 29
0
生成式 AI

可愛又迷人的提示詞工程 Prompt Engineering系列 第 29

Day29. 生成圖像 Prompt 與創意概念

  • 分享至 

  • xImage
  •  

AI 繪圖工具如 Stable Diffusion、Midjourney、DALL·E 3 的問世,讓文字變影像成為創作者的日常。但如果我們實際使用過,就會發現一件事:同樣一句話,由不同人寫,生成的內容完全不一樣,這就是生成圖像的核心,Prompt 不只是指令,還是一種語意設計語言

從描述到構圖:Prompt 的三層語義結構

要讓 AI 理解我們的創意概念,不能只是告訴它要畫什麼,而要設計一個能引導構圖的語意結構。我們可以把圖像 Prompt 拆解成三個層次:

主體語意

用來定義畫面的核心對象與動作,也就是整張圖的誰與在做什麼,這是 Prompt 的基礎,決定了畫面的基本內容,這一層描述了人物與場景,但尚未形成具體的視覺風格與構圖

a cyberpunk samurai walking through neon-lit Tokyo street

美學語意

用來定義風格、氛圍、色調、構圖視角等感官層面的元素。如果說主體語意是名詞,這一層就是豐富畫面的形容詞,它讓 AI 不只是生成主題,還可以生成氛圍

ultra wide shot, cinematic lighting, volumetric fog, reflective puddles, high contrast, film grain

控制語意

負責精準控制畫面結構、解析度與細節層次

這一層偏向技術性,常見於 Stable Diffusion 或 ComfyUI 的進階應用,透過參數或外部訊號讓創意變成可重現的設計

  • 參數控制:直接在 Prompt 中加入模型支援的參數

    -ar 16:9 --style raw --v 6 --chaos 20 --quality 2
    ``
    
    
  • 結構控制:透過 ControlNet 或 T2I Adapter,輸入姿勢、線稿、深度圖等控制信號,精準掌握畫面佈局。

模糊反而是一種創意

在文字生成任務中,我們追求精確;但在圖像生成裡,模糊反而是一種創意空間。例如這段描述:

a dream made of glass and smoke

這句話若拿去當文案會顯得抽象,但對圖像模型來說卻是充滿詩意的提示

模型會根據訓練資料中與 dream、glass、smoke 相關的語義關聯,自動構成新的視覺組合。這就是生成模型的語義融合能力

真正厲害的圖像 Prompt,往往介於可視化的具體性與詩意的模糊性之間。這也是為什麼專業創作者會保留半明確的描述,讓 AI 有詮釋的空間。

a portrait of a forgotten god, light breaking through dust, reminiscent of ancient marble

你不需要告訴模型是哪位神、哪個時代,它會運用自身的想像力創造一個獨特的版本給你

https://ithelp.ithome.com.tw/upload/images/20251012/20120631L91JNRFKzk.png

製作自己的模板

若想長期產出穩定的創意結果,可以建立自己的提示詞結構模板,我們就能在不同主題間快速切換風格,同時保留創作的一致性

以下是一個「可模組化」的提示詞範例模板:

主題 + 情緒/氛圍 + 風格 + 構圖 + 光影 + 材質 + 鏡頭參數 + 細節強度

A mystical forest at dawn, soft sunlight filtering through mist, cinematic lighting, shot with a 35mm lens, hyperrealistic, rendered in Unreal Engine, 8K ultra detail

https://ithelp.ithome.com.tw/upload/images/20251012/20120631lNIzPyxUJh.png

控制語序權重

Stable Diffusion 與 Midjourney 都會根據語序與權重影響結果。你可以用括號或權重符號 ()[] 來控制語意強度,讓模型更聚焦於你想強調的部分。

(masterpiece:1.3), (detailed forest:1.2), (fog:0.8)

https://ithelp.ithome.com.tw/upload/images/20251012/20120631f7mkXYWTUc.png

建立自己的創意語意地圖

當我們談論創意概念時,不該只是一張圖,而是一整個世界觀的語意結構。這時可以用脈絡工程的思維,為 AI 建立概念層級上下文

https://ithelp.ithome.com.tw/upload/images/20251012/20120631D9SzxF89yC.png
分層設計的好處包含:

  • 創意的一致性:同一概念可生成多張風格一致的圖像
  • 重用:不同場景可重用相同概念元素。
  • 工程化:未來能自動生成系列作品,例如品牌風格板、角色設定稿

實作延伸:讓語意「可控制」

在 Stable Diffusion 或 ComfyUI 這類系統中,我們可以結合多種工具,打造一個可精準控制的生成工作流:

  • Prompt Encoder (文字控制)
  • ControlNet (結構控制)
  • LoRA / Embedding (風格注入)

舉例來說,如果要生成一系列「以自然與科技融合為主題的品牌產品視覺」,可以設計一個共享的視覺,包含相同的風格、光影、鏡頭感和色彩基調。兩張圖的變化將主要來自於主體和構圖,這樣既能看出是系列作品,又具備各自的獨特性

單品特寫

這張圖的目的是聚焦單一產品,展現其核心魅力,適合做為主視覺

(masterpiece:1.2), best quality, ultra-detailed, photorealistic product shot, sleek, minimalist aesthetic. A single (translucent serum bottle with a silver cap:1.3), centered, macro photography. It rests on a bed of (soft glowing moss:1.1) and dewy ferns. (cinematic volumetric lighting:1.2), ethereal glow, soft shadows, shot on 85mm lens, shallow depth of field, bokeh background, 8K UHD.

系列合集

這張圖展示多個產品,強調品牌的完整性與系列感

(masterpiece:1.2), best quality, ultra-detailed, photorealistic product shot, sleek, minimalist aesthetic. A (set of three matching white ceramic cosmetic jars:1.3), arranged in a gentle arc. Angled shot, slightly wider view. They are placed on a smooth, dark stone surface, surrounded by (holographic data streams that look like glowing roots:1.2). (cinematic volumetric lighting:1.2), ethereal glow, reflected light on the stone surface, shot on 85mm lens, shallow depth of field, bokeh background, 8K UHD.

我們開頭使用 (masterpiece:1.2), best quality 等詞彙來提高畫質,用 ( ):數字 增加特定元素的權重,例如 (minimalist ceramic bottle:1.3) 會讓模型更加專注於生成一個高品質的瓶子,將「自然與科技融合」這個抽象概念具象化為 bioluminescent floraholographic data streams resembling vines

透過這種方式,每張圖既有創意變化,又能保留統一的品牌語義結構

小結

影像生成的 Prompt 是一種結合了語意建構、美學思維與技術約束的創作語法。它讓我們得以用文字去設計畫面,我們希望能用最簡潔的語意,創造最豐富的視覺,因為 Prompt Engineering 的終極目標,是讓 AI 看見我們想像的世界


上一篇
Day28. 多模態 RAG 與代理
系列文
可愛又迷人的提示詞工程 Prompt Engineering29
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言