Day12｜Prompt Engineering 實戰：用 CoT、角色提示與 JSON 把輸出變得可用

2025 iThome 鐵人賽

DAY 12

生成式 AI

生成式AI的奇妙旅程：從ChatGPT到個人化應用系列第 12 篇

17th鐵人賽

JasonLee1211

2025-09-26 23:59:25

103 瀏覽

分享至

承上篇文章，有了方法論，現在把鏡頭拉近到實作現場：我們將用三個代表性情境——數學推理（CoT）、旅遊規劃的角色與風格控制、以及工程整合用的 JSON 輸出——逐步驗證上一篇的設計原則；接著走向工具鏈與流程自動化，示範如何用 LangChain／LlamaIndex／Guardrails／PromptLayer／Agenta 串起評估與版本管理，並以 APE／PET-Select 減少人工試錯，讓 Prompt Engineering 真正達到可複製、可量化、可上線。

一、實例演練：以 LLM 案例解析提示工程的威力

為了讓這些概念更容易理解，我們以常見的 LLM 應用場景，結合 ChatGPT 或類似模型（如 Gemini-pro）的行為來進行案例分析。

案例一：數學推理與思維鏈 (CoT)

大型語言模型在處理數學任務時經常出錯，因為它們主要訓練於文本預測，而非嚴格的數學運算。

假設我們輸入一個簡單的年齡問題：

問題： 我 3 歲時，我的伴侶是我的 3 倍大。現在我 20 歲了，我的伴侶多大？

在沒有提示工程干預下（即單純的零次提示），模型可能給出一個錯誤的答案：63 歲（直接將 20 乘以 3，忘記了年齡差是恆定的）。

應用思維鏈 (CoT)：
我們在問題後加入關鍵指令：「讓我們一步一步思考。」

LLM 會被誘導產生以下推理步驟：

我 3 歲時，伴侶年齡是 $3 \times 3 = 9$ 歲。
我與伴侶的年齡差是 $9 - 3 = 6$ 歲，伴侶比我大 6 歲。
現在我 20 歲。
所以伴侶現在的年齡是 $20 + 6 = 26$ 歲。

最終結果： 26 歲。

透過思維鏈，模型不僅輸出了正確的答案，還提供了可解釋性（Interpretability），讓使用者可以追蹤其推理過程，識別錯誤發生在哪一步。

案例二：角色扮演與風格控制

角色提示（Role Prompting）能讓模型在語氣和內容專業度上產生極大的差異。

假設我們在規劃一次去曼哈頓（Manhattan）的旅行：

提示 A (零次提示)：「我在曼哈頓，建議 3 個景點。」

提示 B (角色提示 + 風格控制)：「我要你扮演一位旅遊指南。我會告訴你我的地點，你要用幽默且鼓舞人心的風格建議我 3 個景點。我的建議是：我在曼哈頓。」

提示類型	範例輸出片段（節選）	效果
A (零次)	1. 帝國大廈：紐約最具標誌性的摩天大樓。2. 現代藝術博物館 (MoMA)：世界頂級藝術收藏之一。3. 第五大道：以其奢侈品店而聞名。	準確但制式化且通用
B (角色 + 風格)	1. 看見帝國大廈的雄心：登上令人暈眩的帝國大廈頂端，沐浴在曼哈頓天際線的榮耀中。準備好感受自己像大金剛一樣站在大蘋果之上吧...	語氣幽默且生動，輸出的風格和聲音完全被提示所掌控

案例三：工程師的利器—結構化 JSON 輸出

對於工程師而言，將 LLM 整合到應用程式中時，模型的輸出格式必須高度一致和可預測。要求模型以 JSON 格式回覆是常見的最佳實踐，尤其適用於提取、分類、排序等非創意性任務。

優勢：

限制幻覺： 指定 JSON 結構會迫使模型遵守結構化約束，有助於限制模型「幻覺」出不相關的文本。
確保資料類型： JSON 格式能確保模型回傳預期的資料類型（如字串、數字、日期）。
便於解析： 應用程式可以輕鬆解析和利用這些數據，無需額外的文本清洗步驟。

二、工具與應用：現代提示工程的進階實踐

提示工程早已不再是單純的手動試錯過程。為了應對日益複雜的模型和應用，業界已經發展出一系列工具和更進階的技術：

1. 進階提示工具與框架

為了優化和加速提示設計過程，開發者可以利用多種工具和平台。

工具/框架名稱	主要功能與定位
LangChain	開源框架，簡化和優化 LLM 應用程式開發流程，尤其擅長提示管理和提供預製提示模板，廣泛用於構建 Agents。
PromptLayer	一個全面的提示工程應用，用於建立、測試、部署和監控提示，包括提示註冊表、批次測試和 LLM 分析功能。
Agenta	開源平台，提供資源用於實驗、評估和部署 LLM，允許開發者測試多個版本的提示和參數。
PromptPerfect	專注於提高提示品質，以幫助使用者從 LLM 獲得一致的結果，並提供模型「戰場」比較不同模型的輸出。
Nemo Guardrails	專門設計用於構建護欄 (Rails)，確保 LLM 在預定義的指導方針內運行，以提高輸出安全性和可靠性。
LlamaIndex	專門用於 LLM 應用程式的數據管理，提供處理數據流的工具，通常與 RAG 系統整合。

2. 自動化提示工程 (APE)

當提示設計變得複雜時，自動化提示工程 (Automatic Prompt Engineering, APE) 應運而生。APE 利用 LLM 本身的能力來生成、評估和完善提示，從而優化提示設計過程，提高效率和相關性。

APE 的流程包括：

提示生成： LLM 根據特定任務產生多種提示變體。
提示評分： 根據清晰度、特異性和潛在輸出效果等指標對這些提示進行嚴格評分。
完善和迭代： 根據評分調整和優化提示，以增強其與任務要求的一致性。

3. 程式碼生成任務的提示選擇

對於程式碼生成這類對準確性要求極高的任務，選擇合適的提示工程技術至關重要。研究顯示，沒有單一的技術適用於所有查詢。例如，複雜的 PETs (如 Self-debug) 可能不適用於簡單的查詢，甚至可能導致錯誤的結果（過度推理）。

因此，有研究提出了 PET-Select 這類選擇模型，它會根據查詢的複雜度（例如，預測程式碼的複雜度指標）來自動選擇最合適的 PET，這樣既能確保難題得到複雜推理技術的處理，又能避免在簡單問題上浪費資源和時間。

結語與展望

提示工程是一門結合了邏輯嚴謹性和創造性探索的學問，它是將大型語言模型從一個強大的預測引擎轉化為真正有價值的應用程式的關鍵橋樑。

我們探討了從基礎的零次/少次提示，到優化模型思考過程的思維鏈 (CoT)、思維樹 (ToT)，再到增強模型能力以應對現實世界挑戰的 RAG 和 ReAct 代理框架。在實踐中，工程師和開發者應遵循如明確指令優於限制、使用結構化輸出、以及不斷迭代和記錄測試結果等最佳實踐，以最大化 LLM 的效能。