iT邦幫忙

2025 iThome 鐵人賽

DAY 9
0
生成式 AI

可愛又迷人的提示詞工程 Prompt Engineering系列 第 9

Day9. 在多個答案中找出最佳解的 Self-consistency 方法

  • 分享至 

  • xImage
  •  

在使用 AI 的過程中,你是否也遇過類似狀況:同一個問題重複問幾次,AI 給出的答案卻可能不一致。有時只是用字遣詞不同,有時卻差別很大,甚至互相矛盾。

這種不確定性常帶來困擾,為此,我們可以運用 Self-consistency (自我一致性) 方法,讓 AI 扮演多位專家並產生多個答案,我們再從中選出最佳解答。這與人類的思考方式頗為相似:當碰到難解問題時,我們不也常在紙上列出幾種可能的解法,最後再篩選出最可靠的答案嗎?

Self-consistency 方法的重要性

我們先來看個例子,我使用非推理模型的 Gemini 2.5 Flash,詢問他數學題:

一個班級裡有 35 名學生,其中 20 人參加合唱團,15 人參加舞蹈社,兩個社團同時參加的人有 5 人,請問有多少人沒有參加任何社團?

第一次我請他不要推理,直接輸出答案,第二次沒有寫任何限制,可以發現他兩次的回答完全不同。如果要求他直接給出答案,AI 是有可能算錯的,我在介紹 CoT 時講過這個特性,有興趣的朋友可以閱讀 Chain of Thought (CoT) 推理與逐步思考

https://ithelp.ithome.com.tw/upload/images/20250922/20120631m3VivojYao.png

當 AI 每次回答都可能不一樣時,就需要 Self-consistency 出馬了,我們與其依賴單一的答案,不如要求 AI 多生成幾條推裡鏈,再從中觀察哪些答案最常出現,假設 10 這個數字出現了三次,而 515 只各出現一次,那麼我們就會推測 10 更有可能是正確的。就像考試時,如果你用不同方法算出相同答案,這個答案可信度就很高

Self-consistency 方法介紹

以往我們只會問 AI 一次問題,例如:

問題:「這個商業策略可行嗎?」
AI 回答:基於 XXX 分析,我認為可行性為 70%

使用 Self-consistency 方法,AI 就會針對同個問題產生多個不同的回答:

問題:「這個商業策略可行嗎?」

回答 1:從市場角度看,可行性 60 %
回答 2:從財務角度看,可行性 75 %  
回答 3:從技術角度看,可行性 80 %
回答 4:從競爭角度看,可行性 50 %
回答 5:綜合考量,可行性 65 %

結論:多數答案集中在 60-75% 區間,建議採用 65-70% 作為最終評估

在提示詞使用 Self-consistency

我們不是簡單的請 AI 重複三次、五次,而是要引導他產生有意義的多樣內容,這邊提供四種方法供大家參考

直接問

這是最通用的情境,我們可以提供 N 個角度讓 AI 幫我們分析

請對以下問題提供 5 個不同角度的分析:

問題:「公司應該投資開發 AI 產品嗎?」

請分別從以下角度分析:

1. 市場需求
2. 技術能力  
3. 財務投資
4. 競爭環境
5. 風險管控

每個角度給出具體建議和理由。

不同的思維框架

可以請 AI 使用多種公認的分析框架來評估同一個問題,這能確保思考路徑的差異性

請用三種不同的分析框架評估同一個問題:

問題:「選擇 A 方案還是 B 方案?」

框架 1:SWOT 分析
- A 方案的優勢、劣勢、機會、威脅
- B 方案的優勢、劣勢、機會、威脅

框架 2:成本效益分析
- A 方案的投入成本 vs 預期效益
- B 方案的投入成本 vs 預期效益

框架 3:風險評估矩陣
- A 方案的風險機率 vs 影響程度
- B 方案的風險機率 vs 影響程度

最後比較三種框架的結論。

扮演不同的角色產生不同的視角

可以讓 AI 扮演不同的角色,從各自的立場出發進行分析

請分別扮演以下三個角色,對同一問題給出建議:

角色 1:保守的財務長 (CFO)
角色 2:創新的技術長 (CTO)
角色 3:市場導向的行銷長 (CMO)

問題:「明年的產品開發重點應該放在哪裡?」

每個角色基於自己的職責和觀點給出建議,最後總結三個觀點的共同點和分歧點。

用多個時間維度來評估

請 AI 從多個時間跨度來分析決策:

請從三個時間維度評估這個決策:

問題:「是否應該進入新市場?」

短期視角 (3-6 個月):
- 立即的機會和挑戰
- 短期資源需求
- 快速回報可能性

中期視角 (1-2 年):
- 市場建立和品牌認知
- 競爭態勢發展
- 營收和獲利預期

長期視角 (3-5 年):
- 戰略地位的建立
- 市場主導地位
- 持續競爭優勢

整合三個時間維度的分析結果。

如何判斷該採用哪個回答

現在我們已經用 Self-consistency 方法請 AI 提供多個答案了,面對那麼多的答案,我們又該採用哪個回答呢?我整理了 3 種技巧分享給大家,可以擇一使用,也可以混合交叉使用。

數值類的用一致性做判斷

如果 AI 的回答跟數值類有關,就可以先縮小範圍再用交集去找出最佳解,假設 AI 回答了 5 個不同的數值:

回答 1:200-300 萬
回答 2:250 萬左右  
回答 3:280 萬
回答 4:320 萬
回答 5:190-280 萬

我們先取得最大與最小的範圍:190 ~ 320 萬,再來找出最多數回答的共同指向,這邊有四個答案都集中指向 250 到 280 萬,再來取平均跟誤差範圍,最後得到 265 ± 15 萬當作我們的最佳估值

使用相似的論點

從 AI 的多個回答中,分析其核心論點的相似之處。我們的目標是提取那些一致出現的共同論點,這些通常是可靠度較高的結論,可以優先採納。

至於分歧論點,也就是回答間相互矛盾的部分,則代表共識較低。我們可以選擇先保留這些觀點,視情況決定是暫不採用,或是投入更多資源進一步分析。

假設我們請 AI 提供三次分析,得到了以下三個回應:

回答 1:可行。市場對 24 小時客服的需求確實存在。雖然競爭激烈,但技術門檻不高,可快速導入。預計投資回收期約 2 年,建議主攻 B2B 市場。
回答 2:建議投入。技術門檻不高,多數SaaS廠商都能提供。市場需求明確,尤其在電商領域。但競爭已趨白熱化,需找到差異化。估計回收期約 4 年,應優先切入 B2C 市場建立品牌。
回答 3:謹慎評估。雖然市場需求確實存在,且技術不算困難。但競爭者眾多,利潤空間可能被壓縮。投資回收期難以估算,可能長達 3-4 年。B2B 市場可能是較穩定的切入點。

接著就可以整理出共同點和分歧點,並優先採納共同的論點當作分析決策

使用加權評估

加權就是在計算總分時,依照重要程度給予不同的分數比重,我們可以讓 AI 在輸出時,同時提供答案和對答案的信心程度來做加權比重

為每個回答設定信心度,進行加權評估:

回答 1:可行性 70%(信心度:高)
回答 2:可行性 85%(信心度:中)
回答 3:可行性 60%(信心度:中)
回答 4:可行性 75%(信心度:高)
回答 5:可行性 65%(信心度:低)

根據信心度高中低進行加權計算,得出可行性約 72%:

(70%×0.3 + 85%×0.2 + 60%×0.2 + 75%×0.3 + 65%×0.1) = 72%

所有回答都很類似,難以判斷取捨

如果 AI 輸出的回答都很類似,即使使用了上面的技巧還是難以取捨,那就要回到源頭:提示詞的問題設計是否過於引導性?是否在問問題時,直接暗示了答案?

以下是一個帶有引導性的問題敘述:

這個評分最高的策略有什麼好處

盡量避免問題帶有主觀性或直接把答案暴,可以修改如下:

請客觀評估這個策略的優缺點

所有回答都不ㄧ樣,不知道該選誰

有回答都很類似的情境,也會有回答都不一樣的情境,如果是後者,試著檢視問題的設計是否過於複雜或模糊。

這個是過於複雜籠統的提示詞:

評估整個商業模式

我們可以細化,或是明確告訴 AI 要輸出的領域,修改如下:

分別評估收入模式、成本結構、競爭優勢

無法判斷哪個答案比較好

最後一個常見的情況,就是 AI 的輸出很棒,但我無法判斷取捨最終的答案。這時候我們可以建立評估標準,再請 AI 幫忙給每個答案打分數,供我們參考:

建立評估標準:
1. 邏輯完整性 (推理是否嚴謹?)
2. 證據支持度 (有多少事實支持?)
3. 實用性程度 (是否可執行?)
4. 風險考量度 (有沒有考慮潛在風險?)

每個答案按標準打分,選擇總分最高的。

小結

Self-consistency 的特性就是把 AI 從單次的問與答變成一個多方案的產生器,我們利用 AI 產生多個答案進行比較,就可以減少 AI 隨機輸出或不穩定性,這樣相對能得到更棒的答案,適用的場景包括但不限數學、邏輯分析、創意任務、商業決策 ... 等。

我們可以把前面章節介紹的 CoT 當作是 AI 的思維鏈,而 Self-consistency 方法就是集合了多條 CoT,並從中選擇最佳解,這應該是更接近我們人類的思考決策方式,畢竟我們不太會從 0 到 1 那麼直線型的思考,隨著學習的東西愈多,我們一定會多方權衡,最後選擇相對合理與正確的答案。

希望 Self-consistency 可以帶給大家不一樣的思考邏輯:答案從來不只有一個,重點是如何在眾多方案中找到最適合的那個。


上一篇
Day8. ReAct 模式:推理與行動的結合
系列文
可愛又迷人的提示詞工程 Prompt Engineering9
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言