2025 iThome 鐵人賽

DAY 18

DevOps

初探 LLM 可觀測性：打造可持續擴展的 AI 系統系列第 18 篇

【Day 18】探討 AI Gateway 架構：LLM 基礎設施的守護神

17th鐵人賽 ai llm agent observability

mikehsu0618

2025-10-02 22:22:18

276 瀏覽

分享至

前言

大型語言模型（LLM）的浪潮正以前所未有的速度席捲各行各業。從 OpenAI 的 GPT 系列、Anthropic 的 Claude，到 Google 的 Gemini，企業正積極將這些強大的 AI 能力整合至現有工作流程中。然而，當我們從單純的技術嚐鮮，邁向真正可規模化、穩定可靠的生產環境時，一個嚴峻的現實浮出水面：直接串接各家 LLM 的 API 是一場充滿挑戰的硬仗。

API 格式的破碎化、服務的不穩定、成本的失控、以及安全治理的缺失，都成為了阻礙 AI 應用從「實驗品」走向「產品級」的巨大瓶頸。為了解決這些問題，一個新的架構層 **AI Gateway（或稱 AI Gateway）**應運而生。它不僅是個實用的工具，更是生產級別 AI 應用的基石。

大規模 LLM 應用治理的挑戰

早期只接一個模型，看起來很單純。但一旦為了成本最佳化或功能互補而導入多個模型，工程複雜度、治理成本與風險會一口氣放大。以下是直接整合各家 LLM API 常見的四大挑戰與其影響重點。

API 的不一致性與混亂

每個 LLM 供應商都有自己獨特的 API 介面。參數名稱、配置範圍和支援的功能各不相同。例如，同樣是設定回覆長度，OpenAI 使用 max_tokens，Gemini 可能是 maxOutputTokens，而 Claude 則是 max_tokens_to_sample。[1] 這意味著工程團隊必須為每個模型編寫和維護特定的處理邏輯，不僅重複勞動，更限制了模型之間切換的靈活性。

痛點：

參數命名／範圍與預設值不一，功能矩陣（如工具調用、系統提示、流式輸出）不一致。
SDK、錯誤碼、回應結構各自為政，例外處理與重試策略難以統一。
模型／供應商切換需改動業務程式碼，測試與回歸成本高。
難以建置通用中介層：版本管理、灰度釋出、AB Testing 都受限。

供應商的不穩定性與延遲

儘管有服務等級協定（SLA），但 LLM 服務仍會因基礎設施限制、高需求或上游依賴問題而出現性能下降甚至停機。應用程式若直接綁定單一供應商，一旦該服務出問題，便會面臨系統性故障的風險。此外，模型的推論延遲並非固定不變，它會因地理區域、模型版本和請求量而波動，這對於需要即時反應的應用是一大致命傷。

提供者	SLA 保證 (Uptime)	細節與條件
OpenAI	99.9% (企業)	僅適用於企業客戶的 Scale Tier 方案，提供優先計算資源。標準 API 無公開 SLA，需談判。
Azure OpenAI	99.9%	適用於所有資源，保證每月至少 99.9% 可用。若低於此水平，提供服務信用。
Amazon Bedrock	99.9%	每個 AWS 區域每月至少 99.9%。若低於 99.9% 但 >=99.0%，信用 10%；更低則更高信用。不適用於客戶因素或模型崩潰等排除情況。
Google Vertex AI	>=99.9% (大多數服務)	訓練、部署、批次預測等 >=99.9%；自訂模型線上預測 (2+ 節點) >=99.5%。
Anthropic	99.5% (Priority Tier)	優先方案目標 99.5%。標準方案無公開 SLA，可談判至 99.9% 或更高。
Cohere	未公開	無明確公開 SLA 資訊，通常需企業談判類似 99.9% 水平。

常見的保證水平取決於提供者和方案類型，大部分通常的保證是三個九( 99.9%)，這意味著每月允許約 43 分鐘的 downtime，其實在雲端基礎設施中並不算是非常可靠。

從圖中可以看出，即便是最成熟、最先進的 LLM 供應商 OpenAI，也無法始終維持高水準的 SLA。這意味著凡是依賴單一供應商的產品，其 SLA 都會被嚴重牽動，且缺乏容錯與備援空間。

痛點：

綁定單一供應商，當機或降速即成系統性單點故障。
延遲來源多變：地理路徑、模型負載、併發限流、版本行為差異。
P95/P99 尾延遲不穩，造成互動體驗抖動與逾時。
缺少跨供應商容錯與智慧路由（健康檢查、故障轉移、熔斷、配額切換）。

成本歸因與預算的失控

LLM 的使用成本是個複雜的議題，計費方式通常涉及輸入與輸出的 Token 數量、模型類型等。當企業內多個團隊、多個應用程式都在使用 LLM 時，分散在各個平台（如 Azure Monitor, AWS CloudWatch, OpenAI Dashboards）的帳單數據，使得跨團隊、跨模型的成本歸因和預算管理變得極其困難。缺乏統一的成本監控，將導致預算超支、資源浪費，難以進行有效的財務規劃。

痛點：

計費構成複雜：提示長度、上下文視窗、工具調用、嵌入等皆影響成本。
跨平台帳單分散（如 Azure、AWS、供應商自家儀表板）難以彙總。
缺乏部門／專案級 showback/chargeback、成本告警與配額管理。
成本可觀測性不足，易發生超支與資源浪費，影響財務規劃與 ROI 量測。

安全與合規的巨大風險 (Security & Compliance)

在沒有統一閘道的情況下，API 金鑰管理容易變得混亂，增加了金鑰洩漏的風險。更重要的是，安全策略（如個人可識別資訊 PII 的過濾、品牌聲譽保護、防止提示注入攻擊等）往往在各個應用中被不一致地實施。這種缺乏集中式語義驗證與稽核的做法，使企業面臨：

資料洩漏風險：敏感數據（例如 PII、醫療紀錄、金融資訊）若未經統一過濾，可能被直接送往 LLM 供應商。
合規違反風險：若未遵循 GDPR（資料最小化、刪除權、資料駐留）或 HIPAA（受保護醫療資訊處理規範），可能導致高額罰款與法律訴訟。
聲譽與信任危機：資料外洩或回覆內容失控，將造成品牌信任受損，影響長期商業價值。

因此，缺乏集中式的 AI Gateway，不只是工程效率問題，更是企業級安全與合規上的重大隱患。

痛點：

金鑰與憑證分散管理，輪替與撤銷不易，外洩風險高。
PII／敏感資料缺乏一致的偵測、遮罩與資料保留政策。
內容安全與攻擊面：提示注入、越權工具調用、回應有害內容。
缺集中稽核（誰呼叫了什麼模型、攜帶何種資料、輸出如何被使用）。
資料主權／駐留與供應商處理條款不清，合規審計與證據留存困難。

https://itirra.com/blog/the-main-differences-between-gdpr-and-hipaa/

AI Gateway 的定位與核心價值

為了解決上述挑戰，AI Gateway 作為一個智慧中介層，被置於 AI 應用和眾多 LLM 服務之間。但它絕不僅僅是一個簡單的請求轉發工具。我們可以將它理解為整個企業 AI 應用的「智慧交通總管」或「中央控制平面」。

https://www.truefoundry.com/

想像一下，您正在管理一個大型客服部門，並希望導入三種不同的 LLM（模型A、B、C）來分別處理：常見問題回答、複雜情感分析、以及產品建議。

沒有 Gateway 的混亂場景： 您的開發團隊需要為每個模型單獨建立連線、管理三組不同的 API 金鑰、學習三套不同的 API 呼叫方式。此外，成本監控、安全日誌等外部服務也需要分別設定。這就像一個沒有紅綠燈和交通指揮的十字路口，每輛車（每個請求）都橫衝直撞，不僅效率低下，而且極易發生碰撞（系統故障）。長期維護這樣的系統將是一場災難。
擁有 Gateway 的清晰場景： 您只需要建立一個通往 AI Gateway 的連線。Gateway 會為您管理與模型A、B、C 的所有連接，無論它們是來自 OpenAI 的外部 API，還是企業內部微調的 Llama 模型。您的團隊只需學習一個統一的系統，使用一組憑證，所有請求和回應都通過這個中央樞紐進行路由。未來想增加模型D或新功能，也只是在這個中央樞紐上做設定，上層應用完全不受影響。

https://neuraltrust.ai/blog/ai-gateways-vs-api-gateways-differences

這個「智慧總管」的核心價值在於：它接收來自應用程式的請求，理解其「意圖」，經過一系列的處理、優化和安全檢查，然後將其智慧地轉發給最合適的 LLM，最後將結果安全、一致地返回給應用程式。

統一 API：打破壁壘，實現開發自由

使用 AI Gateway 來統一各種 LLM Provider 端口是最基礎也最重要的功能。目前不同 LLM 供應商的 API 在請求結構、參數命名上依然還有很大的差異。

# OpenAI
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hello!"}],
    max_tokens=100
)

# Anthropic
response = client.messages.create(
    model="claude-3-opus-20240229",
    max_tokens=100,
    messages=[{"role": "user", "content": "Hello!"}]
)

即使是簡單的請求，其程式碼結構和參數也略有不同。這種差異迫使開發者為每個模型編寫特定的適配器（Adapter），增加了維護成本。

# 透過 Gateway 呼叫不同模型
# 呼叫 GPT-4o
response = gateway_client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hello!"}]
)

# 只需改變 model 參數，即可無縫切換到 Claude
response = gateway_client.chat.completions.create(
    model="claude-3-opus",
    messages=[{"role": "user", "content": "Hello!"}]
)

AI Gateway 提供一個單一的、標準化的 API 端點，通常完全相容業界主流的 OpenAI API 格式。開發者只需編寫一次程式碼，就可以透過 Gateway 呼叫後端數十種模型。這種方式徹底解除了 Vendor Lock-in 的枷鎖，賦予了企業在不同模型間自由切換、擇優使用的能力。

智慧路由與自動備援：永遠在最佳路徑上

當企業內數十個團隊都在使用 LLM 時，如果缺乏集中治理，很快就會陷入混亂。

集中金鑰管理： 所有 LLM 供應商的 API 金鑰都安全地儲存在 Gateway 的金鑰庫中。應用程式或開發者只被授予訪問 Gateway 的權限，而無需接觸到底層的原始金鑰。這就像銀行的金庫，極大地降低了金鑰外洩的風險。
成本歸因與監控： 所有通過 Gateway 的請求都會被詳細記錄，並打上標籤（例如：team: marketing, feature: chatbot）。這提供了一個中央儀表板，讓管理者能清晰地回答：「上個月行銷團隊在聊天機器人功能上花了多少錢？」，從而實現精準的成本分攤和預算控制。
基於角色的存取控制 (RBAC): Gateway 可以確保神經科學家團隊只能訪問用於文獻分析的模型，而 AI/ML 工程師團隊則使用被授權的程式碼輔助模型。這種權限隔離保障了企業內部數據的安全性和合規性。

集中式治理：成本、金鑰與權限的完全掌控

當企業內數十個團隊都在使用 LLM 時，如果缺乏集中治理，很快就會陷入混亂。

集中金鑰管理： 所有 LLM 供應商的 API 金鑰都安全地儲存在 Gateway 的金鑰庫中。應用程式或開發者只被授予訪問 Gateway 的權限，而無需接觸到底層的原始金鑰。這就像銀行的金庫，極大地降低了金鑰外洩的風險。
成本歸因與監控： 所有通過 Gateway 的請求都會被詳細記錄，並打上標籤（例如：team: marketing, feature: chatbot）。這提供了一個中央儀表板，讓管理者能清晰地回答：「上個月行銷團隊在聊天機器人功能上花了多少錢？」，從而實現精準的成本分攤和預算控制。
基於角色的存取控制 (RBAC): Gateway 可以確保神經科學家團隊只能訪問用於文獻分析的模型，而 AI/ML 工程師團隊則使用被授權的程式碼輔助模型。這種權限隔離保障了企業內部數據的安全性和合規性。

快取與效能優化：更快、更省錢

AI Gateway 可以透過多層次的快取機制大幅降低延遲與成本。傳統快取通常只針對完全相同的請求字串，而 AI Gateway 可以結合不同層次的快取策略，提供更聰明的優化。

常見快取方式：

文字快取：完全相同的提示直接命中快取，適合固定模板或重複度高的 API 請求。
語義快取：將提示轉換為向量嵌入，比對語意相近的查詢，例如「台北今天天氣如何？」與「告訴我台北的天氣」。適合客服問答、FAQ、知識檢索。
回應片段快取：對長回應進行分段快取（例如摘要、文件翻譯），遇到相似的子問題可部分復用。
模型回應後處理快取：對於已知需要正規化、格式化或裁切的結果，可以快取處理後的輸出，避免重複消耗。

效益：

降低成本：對於 FAQ 或高重複查詢，可節省高達 90% 的 Token 花費。
提升速度：回應延遲可從數秒縮短至 毫秒級。
穩定性提升：在供應商 API 延遲或異常時，快取仍能保證基礎回覆能力。

統一的安全護欄：AI 應用的防火牆

AI Gateway 是實施安全策略的最佳檢查點，它就像一個「語義防火牆」，在數據流入和流出時進行深度內容檢查。

數據傳出前 (Request)：
- PII 偵測與脫敏： 自動偵測並遮罩請求中的姓名、電話、信用卡號等敏感個資，確保它們不會被發送給第三方 LLM。
- 提示注入防禦： 識別並攔截試圖透過惡意提示詞（Prompt）來操控、攻擊或「越獄」(Jailbreak) LLM 的行為。
數據返回前 (Response)：
- 內容過濾： 攔截模型產生的不當言論、暴力或有害內容。
- 品牌合規： 確保模型的回答符合企業的語氣和品牌規範，例如避免使用某些詞彙。