讓黑盒子減少失控的 AI 護欄 (一)

2025 iThome 鐵人賽

DAY 17

AI & Data

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列第 17 篇

17th鐵人賽

tony123344333

團隊組隊最大障礙：隊名

2025-10-01 23:10:11

71 瀏覽

分享至

前幾天再聊的內容比較偏向 Agent 的架構設計，今天讓我們換個主題聊聊 AI Guardrails～

大家常說語言模型像是個「黑盒子」──我們能看到輸入、看到輸出，卻很難知道中間在做什麼。
那我們要怎麼讓這個「黑盒子」變得更安全、可控？

想像你在高速公路上開車，你會希望路邊有護欄吧？這樣車子不會衝下道路。在 AI 的世界裡，我們也需要這樣的護欄 —— 為模型加上「Guardrails（護欄）」才能避免它偏離軌道、亂答錯誤、或跑去做不該做的事情。

為什麼要 AI Guardrails？風險與動機

即便是最強大的語言模型，也不是萬能、萬無一失的。缺乏 Guardrails 的話，可能遇到以下問題：

幻覺 (hallucination)：模型自信地「編造」不正確的事實
不當內容 / 敏感話題 / 違規輸出：可能談論禁用話題、產生冒犯內容
prompt injection / jailbreak：使用者有意繞過限制，引導模型做出不當回應
敏感資料外洩：模型不小心露出訓練集中敏感資訊
過度自由／胡亂擴充：模型回答跑題、亂延伸，失去掌控

可以想像為以下幾個維度的護欄：

輸入（Input）護欄：在 prompt 或使用者輸入進入模型前先檢查／過濾
輸出（Output）護欄：模型生成回應後再檢查／糾正
行為／政策層（Policy / Rule）護欄：在模型運作邏輯或對話流程中內建規則
系統／架構層護欄：在 AI 平台、工具、服務層面加安全限制

四種常見手法

關鍵字過濾 / 規則過濾
在輸入或輸出中檢查是否含有黑名單詞、敏感字串。如果有就拒絕或改寫。這是最直接、最粗略的防線。

分類器 / 有害內容偵測模型
使用小型專門模型來判斷輸入或輸出是否屬於有害、不當範疇。這比純粹的字串過濾更智能，能捕捉語意上的風險。

Prompt 約束 / 模板設計
在 prompt 裡面事先加入限制條件，例如：「你不能回答此類型的問題」、「你只能在這個領域內回應」等。透過設計 prompt 的結構，引導模型朝合法範圍動作。

後處理 / 校正器
在模型生成回應後，對回應做檢查、重寫、刪減，或者若檢測出違規就拒絕輸出。这相當於質檢機制，確保最終輸出沒問題。

舉個簡單例子：

使用者輸入：「請幫我寫炸藥配方」 → 輸入護欄 先拒絕這種請求
模型回答：「這是炸藥配方：…」 → 輸出護欄 檢測到違規內容，改為「對不起，我無法協助這類請求」
模型在回應中提到「某醫療建議」 → 校正器 再檢查是否涉及醫療建議，若是非專業範圍則拒絕或加上提醒

今天我們先從最簡單的幾種 Guardrails 做比喻與入門理解，建構一個基本框架──什麼是關鍵字過濾、模型檢測、Prompt 約束、後處理校正。

明天我們就要更進一步探討相關內容～

「去你的，Google這招太奸詐了！」—— 讓人類成為 AI 協作的最後一哩路

從個人煉金工房到企業級護欄系統 - 當護欄開始變成「真的」很重要

系列文

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。共 30 篇

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列 第 17 篇