前幾天再聊的內容比較偏向 Agent 的架構設計,今天讓我們換個主題聊聊 AI Guardrails~
大家常說語言模型像是個「黑盒子」──我們能看到輸入、看到輸出,卻很難知道中間在做什麼。
那我們要怎麼讓這個「黑盒子」變得更安全、可控?
想像你在高速公路上開車,你會希望路邊有護欄吧?這樣車子不會衝下道路。在 AI 的世界裡,我們也需要這樣的護欄 —— 為模型加上「Guardrails(護欄)」才能避免它偏離軌道、亂答錯誤、或跑去做不該做的事情。
即便是最強大的語言模型,也不是萬能、萬無一失的。缺乏 Guardrails 的話,可能遇到以下問題:
可以想像為以下幾個維度的護欄:
關鍵字過濾 / 規則過濾
在輸入或輸出中檢查是否含有黑名單詞、敏感字串。如果有就拒絕或改寫。這是最直接、最粗略的防線。
分類器 / 有害內容偵測模型
使用小型專門模型來判斷輸入或輸出是否屬於有害、不當範疇。這比純粹的字串過濾更智能,能捕捉語意上的風險。
Prompt 約束 / 模板設計
在 prompt 裡面事先加入限制條件,例如:「你不能回答此類型的問題」、「你只能在這個領域內回應」等。透過設計 prompt 的結構,引導模型朝合法範圍動作。
後處理 / 校正器
在模型生成回應後,對回應做檢查、重寫、刪減,或者若檢測出違規就拒絕輸出。这相當於質檢機制,確保最終輸出沒問題。
舉個簡單例子:
今天我們先從最簡單的幾種 Guardrails 做比喻與入門理解,建構一個基本框架──什麼是關鍵字過濾、模型檢測、Prompt 約束、後處理校正。
明天我們就要更進一步探討相關內容~