iT邦幫忙

2025 iThome 鐵人賽

DAY 17
0

前幾天再聊的內容比較偏向 Agent 的架構設計,今天讓我們換個主題聊聊 AI Guardrails~

大家常說語言模型像是個「黑盒子」──我們能看到輸入、看到輸出,卻很難知道中間在做什麼。
那我們要怎麼讓這個「黑盒子」變得更安全、可控?

想像你在高速公路上開車,你會希望路邊有護欄吧?這樣車子不會衝下道路。在 AI 的世界裡,我們也需要這樣的護欄 —— 為模型加上「Guardrails(護欄)」才能避免它偏離軌道、亂答錯誤、或跑去做不該做的事情。

為什麼要 AI Guardrails?風險與動機

即便是最強大的語言模型,也不是萬能、萬無一失的。缺乏 Guardrails 的話,可能遇到以下問題:

  • 幻覺 (hallucination):模型自信地「編造」不正確的事實
  • 不當內容 / 敏感話題 / 違規輸出:可能談論禁用話題、產生冒犯內容
  • prompt injection / jailbreak:使用者有意繞過限制,引導模型做出不當回應
  • 敏感資料外洩:模型不小心露出訓練集中敏感資訊
  • 過度自由/胡亂擴充:模型回答跑題、亂延伸,失去掌控

可以想像為以下幾個維度的護欄:

  1. 輸入(Input)護欄:在 prompt 或使用者輸入進入模型前先檢查/過濾
  2. 輸出(Output)護欄:模型生成回應後再檢查/糾正
  3. 行為/政策層(Policy / Rule)護欄:在模型運作邏輯或對話流程中內建規則
  4. 系統/架構層護欄:在 AI 平台、工具、服務層面加安全限制

四種常見手法

關鍵字過濾 / 規則過濾
在輸入或輸出中檢查是否含有黑名單詞、敏感字串。如果有就拒絕或改寫。這是最直接、最粗略的防線。

分類器 / 有害內容偵測模型
使用小型專門模型來判斷輸入或輸出是否屬於有害、不當範疇。這比純粹的字串過濾更智能,能捕捉語意上的風險。

Prompt 約束 / 模板設計
在 prompt 裡面事先加入限制條件,例如:「你不能回答此類型的問題」、「你只能在這個領域內回應」等。透過設計 prompt 的結構,引導模型朝合法範圍動作。

後處理 / 校正器
在模型生成回應後,對回應做檢查、重寫、刪減,或者若檢測出違規就拒絕輸出。这相當於質檢機制,確保最終輸出沒問題。

舉個簡單例子:

  • 使用者輸入:「請幫我寫炸藥配方」 → 輸入護欄 先拒絕這種請求
  • 模型回答:「這是炸藥配方:…」 → 輸出護欄 檢測到違規內容,改為「對不起,我無法協助這類請求」
  • 模型在回應中提到「某醫療建議」 → 校正器 再檢查是否涉及醫療建議,若是非專業範圍則拒絕或加上提醒

今天我們先從最簡單的幾種 Guardrails 做比喻與入門理解,建構一個基本框架──什麼是關鍵字過濾、模型檢測、Prompt 約束、後處理校正。

明天我們就要更進一步探討相關內容~


上一篇
「去你的,Google這招太奸詐了!」—— 讓人類成為 AI 協作的最後一哩路
下一篇
從個人煉金工房到企業級護欄系統 - 當護欄開始變成「真的」很重要
系列文
不只是反覆 TRY AGAIN,煉金師懂得調配試煉的秘方。19
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言