2025 iThome 鐵人賽

DAY 19

DevOps

初探 LLM 可觀測性：打造可持續擴展的 AI 系統系列第 19 篇

【Day 19】AI Gateway 深度選型：從流量代理到智能控制平面

17th鐵人賽 ai agent llm observability

mikehsu0618

2025-10-03 23:06:30

152 瀏覽

分享至

前言

在 LLM 應用從小規模 PoC 走向生產環境的過程中，AI Gateway 不再只是簡單的 API 轉發器，它已經演變為關鍵的「AI 控制平面」。

選擇 Gateway 就是選擇你對 非確定性 (Non-determinism) 的管理方式。一個好的 Gateway 決定了你如何處理模型飄移、成本失控、合規風險和糟糕的用戶體驗。本文將拋開行銷術語，從架構師視角拆解市面上的主流方案，助你做出最符合技術戰略的決策。

認識 AI Gateway 核心架構：控制平面 vs. 資料平面

多數成熟的 AI Gateway 都可拆成兩個面向：資料平面追求極致快、控制平面承擔治理複雜度：

資料平面 (Data Plane) - 效能的極致追求： 這是處理每一筆即時請求的「熱路徑 (Hot Path)」。它位於使用者請求到 LLM 回應的關鍵路徑上，因此對低延遲 (Low Latency) 和高吞吐 (High Throughput) 有著極其嚴苛的要求。在這裡，任何一個毫秒的延遲都會直接影響終端使用者的體驗。它的核心任務就是：快、狠、準地完成請求的轉發、基礎驗證和回應。
控制平面 (Control Plane) - 功能的複雜需求： 這是負責管理、配置和監控的「冷路徑 (Cold Path)」。它處理所有非即時的複雜邏輯，例如設定路由策略、管理 API 金鑰、分析成本與用量、提供監控儀表板、更新安全規則等。它的核心任務是：強大、靈活、可觀測。

一個優秀的 AI Gateway 架構，必須將這兩個平面清晰地分離，避免讓控制平面的複雜性拖慢資料平面的效能。讓我們以 TrueFoundry 的架構為例，來看看這是如何實現的。

上圖清晰地展示了這種分離式設計：

控制平面： 開發者/管理者透過 UI 進行配置，這些設定被儲存在後端資料庫（如 Postgres）。所有請求的日誌和指標數據被非同步地發送到佇列(NATS)，最終由後端服務處理並存入分析型資料庫（ClickHouse）進行分析。這是一個完整的管理與觀測迴路。
資料平面： 應用程式的 LLM Request 直接發送給輕量的 Gateway 實例。這些 Gateway 實例在記憶體中執行所有必要的決策，然後將請求轉發給 LLM，並接收回應。

實現高效能資料平面的關鍵設計原則：

TrueFoundry 的架構體現了幾個最大化資料平面效能的關鍵原則，這在許多頂尖的 Gateway 解決方案中都能看到：

記憶體內執行 (In-Memory Enforcement)： 所有高頻操作，如身份驗證、速率限制、負載平衡等決策，都完全在 Gateway 的記憶體中完成。規則和配置由控制平面提前同步到資料平面，避免了在處理即時請求時，還需要去查詢外部資料庫，從而實現了毫秒甚至亞毫秒級的回應時間。
請求路徑中零外部呼叫 (Zero External Calls on Request Path)： 一旦請求進入資料平面（Gateway），就不會再觸發任何額外的網路或磁碟 I/O 操作（除非啟用語義快取等特定功能）。這從根本上消除了不可預測的外部延遲，保證了 Gateway 本身的效能穩定性。
非同步日誌記錄 (Asynchronous Logging)： 資料平面的首要任務是處理請求，而不是等待日誌寫入。Gateway 會將日誌和指標數據「即發即忘 (fire-and-forget)」地推送到一個高速訊息佇列（如 NATS）。控制平面的後端服務會非同步地消費這些數據。即使後端的日誌系統出現故障或延遲，也絕不會阻塞或減慢即時的請求處理流程。
無狀態與水平擴展 (Stateless & Horizontally Scalable)： 資料平面的 Gateway 實例本身是無狀態的，不保存任何會話資訊。這意味著可以根據流量負載，輕鬆地增加或減少 Gateway 實例的數量（水平擴展），以應對數萬甚至數十萬 RPS（每秒請求數）的龐大流量。

不同的 AI Gateway 解決方案在控制平面與資料平面的設計上會有不同的取捨。有些輕量級的開源方案可能更專注於提供一個高效的資料平面，而在控制平面的功能上較為精簡。而一些企業級的商業方案則可能提供極其強大的控制平面，但在部署和效能上需要更多考量。

AI Gateway 四大選型路線：從設計與技術實作解析

市面上的 AI Gateway 隨著 LLM Agent 的盛行以及管理負擔的指數增加，現行的解決方案有如雨後春筍般的出現，第一時間看到實在令人感到眼花撩亂。現在我們大略的使用四大流派來劃分戰場，深入探討其技術底層。

效能至上：專注於資料平面的極致化

這一派別的核心哲學是：Gateway 絕不能成為性能瓶頸，其自身開銷應趨近於零。他們追求的不是功能的廣度，而是資料平面 (Data Plane) 的極致效率。這種性能優勢並非僅來自於將日誌等操作非同步化（這已是現代後端的標準實踐），其根本原因在於底層技術棧的選擇。

Bifrost（by Maxim）：追求微秒級的透明代理

Bifrost 採用 Go 語言，利用其輕量級的併發模型 (Goroutines) 和高效的網路處理能力，專為大規模 I/O 密集型場景而生。官方宣稱的 11μs 新增延遲，不僅是將重操作移出關鍵路徑，更是在關鍵路徑上對每一次記憶體分配、每一次資料複製都進行了極致優化，以降低對 Go 垃圾回收 (GC) 的壓力，從而保證穩定的低延遲。

技術核心：極薄關鍵路徑（鑑權/限流/路由最小化）、串流友善、重打點改走旁路事件。
架構啟示：特別適合 Realtime API、對話式 Agent 等對 P99 尾延遲極敏感的場景。
選型提醒：你需要已有或願意自建完善的觀測/治理系統，Bifrost 專注「快」。

LangDB：Rust 賦能的可編程路由

LangDB 以 Rust 撰寫而成。Rust 沒有垃圾回收機制，通過編譯期的所有權檢查解決了記憶體安全問題。這意味著沒有 GC 停頓 (GC Pauses) 的風險，能夠提供極其平滑且可預測的 P99 尾部延遲，這對於即時互動或 Agent 應用至關重要。其強大的可編程路由能力，是建立在這個高性能、無 GC 的基石之上。

技術核心：延遲/成本加權路由、腳本化策略、回退與條件降級。
架構啟示：能把短文本導向便宜模型、長文本交給長上下文模型，精細化利用供應商差異。
選型提醒：路由強、治理薄；效能與策略靈活並存，但審計/合規要額外補齊。

你可能會問，這種速度的代價是什麼？答案是生態整合的便利性。

選擇 Go 或 Rust，意味著選擇了性能的「硬核模式」。相較於像 LiteLLM 這樣以 Python 為核心的方案，它們與主流 AI 框架（如 LangChain、LlamaIndex）的整合通常不那麼直接。選擇效能極客路線，等於做出了一個清晰的架構權衡：你願意用更專業的開發資源和額外的整合工作，去換取資料平面上毫秒必爭的極致性能與穩定性。 這是一個為解決規模化瓶頸而生的選擇，而非追求開箱即用的功能完整性。

企業方案穩定至上：構建完整的 AI 治理體系

這一派把 Gateway 視為安全與合規的邊界，重點在縮短「從零自建到可審計/可回溯/可控」的時間。它們的企業版多半已內建 RBAC、審計、PII 脫敏、金鑰生命週期、配額/預算與 SSO/SCIM 整合，對需要從頭打造 AI 基礎設施的團隊，是極具效率的捷徑。

Kong AI Gateway

Kong 把既有的 API 治理能力（鑑權、RBAC、配額、限流、審計）原樣延伸到 LLM 流量，企業環境可直接沿用既有 Kong 生態與運維流程。

技術核心：基於 NGINX/Envoy 的插件體系（如 ai-proxy、ai-request-transformer、PII Sanitizer），策略與審計集中化。
架構啟示：已部署 Kong 的企業幾乎零摩擦接手 AI 流量：同一套門戶、同一套策略、同一套觀測。
選型提醒：功能成熟且一體化，上線快、風險低；但把更多政策「內聯」到資料平面會帶來一定延遲與成本，需依 SLO 調整啟用範圍。

TrueFoundry：MLOps 與應用團隊的橋樑

TrueFoundry 強項是把 LLM 納入雲原生與 MLOps 的既有秩序：Kubernetes、Secret Managers、RBAC、多租戶配額與成本追蹤都能一站接軌。

技術核心：集中路由/回退、團隊級配額與成本追蹤、金鑰與密鑰治理、與現有平台流程打通。
架構啟示：中大型組織要把 LLM 當「共享基礎設施」管理時的實用路徑，減少「旁路系統」造成的治理破碎。
選型提醒：治理面完整、企業適配度高；導入期需要平台/安全/資料團隊協作並做自家延遲壓測。

在這派的使用者會更多注重在專業 SaaS 解決方案的「企業級成熟度 + 上線速度」。Kong 與 TrueFoundry 已把審計、配額、金鑰、合規、SSO/SCIM、成本治理，這些進階功能整包準備好，能把你從「自建 3–6 個月」壓縮到「幾天到幾週上限」。

彈性靈活至上：抽象化加速實驗

這個流派的核心價值是標準化與相容性：用一套 API 換遍百家模型並且與多種類型工具無縫整合，讓研發可以快試快切、快速疊代。

LiteLLM：擁有最龐大的社群生態以及整合資源

LiteLLM 以開源 Proxy 與豐富適配聞名，支援 100+ 供應商；虛擬金鑰帶來精細預算/速率控制，也內建多種快取（含語義快取）。

技術核心：OpenAI 風格統一抽象、Virtual Keys、配額/速率、字串與語義快取、基本路由。
架構啟示：DX 友善、A/B 快速，特別適合模型試錯期與多後端並行。
選型提醒：極端吞吐/尾延遲不是主要目標；要搭配自家監控與壓測優化。

OpenRouter：託管式模型聚合

OpenRouter 是 SaaS 聚合器，一把金鑰接數百模型、免去自行維護審批與上/下線的痛。

技術核心：單一相容 API、供應商與地區路由、簡化金鑰與帳務。
架構啟示：PoC/新創可最快上線、先把價值驗證做起來。
選型提醒：長期要評估成本與資料政策；成長到一定規模多半會回到自託管 Gateway。

以開源的 LiteLLM 來說，其擁有多元的功能以及對各種主流 LLM 生態工具極大的整合度，有如 AI Gateway 界的「Grafana」。以 TypeScript 編寫的它不會是人們效能的第一考量，但簡易且無縫整合進現有 LLM 基礎設施的能力非常突出。

平台整合至上：雲端基礎設施的延伸

既然 AI Gateway 也是作為所有流量與請求的統一入口，那把 AI 流量當成既有平台（CDN、邊緣、API 中樞）的基礎設施供應商，自然能提出底層整合體驗最好的角覺方案，並且直接繼承其網路、分析與安全能力。

Cloudflare AI Gateway：邊緣網路的威力

Cloudflare 把全球邊緣快取、限流、重試/回退、分析打包成一鍵開啟的 Gateway；遇到完全相同請求可直接在最近節點命中，延遲與成本一起省。

技術核心：邊緣字串快取、動態路由、DDoS/速率、逐請求日誌與統計。
架構啟示：知識庫/FAQ 這類重複查詢場景收益極高；對 Workers/Pages 用戶幾乎零摩擦。
選型提醒：語義快取仍需自建/整合；複雜治理可與其他守門員方案搭配。

選擇 Cloudflare AI Gateway，與其說是選擇一個新工具，不如說是將你對現有平台的投資效益最大化。其核心競爭力源自其全球邊緣網路：在請求觸及昂貴的 LLM API 之前，就近利用快取終結它。這不僅為重複性查詢帶來了極致的成本與延遲優化，更讓你免費獲得了世界級的 DDoS 防護與流量管制能力。對於已經深度使用 Cloudflare 的團隊而言，這是在不增加架構複雜度的前提下，為 AI 應用加上「可靠性」與「成本護欄」的最短路徑。

技術深度對比：快取、路由與可觀測性

不同 Gateway 在「怎麼省錢、怎麼更穩、怎麼看得見」上，其實落差很大。有的只做最簡單的字串快取與固定配額，有的已經做到語義快取、以「成本/預算」作為路由條件，並把 Trace 送進 OpenTelemetry 生態。下面三個面向，最容易拉開差距。

快取策略的選擇

快取能同時降成本與延遲，但每個 AI Gateway 解決方案的實作深度大不同，快速的判斷可以從這兩點由淺到深，從「完全相同請求才命中」到「用向量相似度判斷語意相近也命中」。

精確匹配（Exact-Match / 字串快取）
- 代表做法：Cloudflare AI Gateway 直接在邊緣節點快取相同請求，命中就不打到上游模型（典型用在 FAQ/重複查詢）。
- 特性：性能極高、零語義風險；但「字面不同」就不會命中。
語義快取（Semantic Cache）
- 代表做法：LiteLLM 在 Proxy/SDK 層支援Redis/Qdrant 等語義快取；透過嵌入與向量檢索命中相似查詢。
- 取捨：要付出Embedding 與向量檢索的額外成本/延遲，且要管好閾值，不然會有答非所問的風險（Precision/Recall 取捨）。

路由與容錯（Fallback）的智能程度

就連路由與 Fallback 的功能也會需要特地了解是否足夠進接到滿足自己的需求，從「輪詢/配重」一路到延遲感知、成本/預算感知、百分比分流與自動回退，成熟度各家差很大。

靜態路由
- 做法：權重、輪詢（Round-Robin）等固定策略，多數方案的基本方案。
動態路由（延遲/可靠度感知）
- 代表：LangDB 提供延遲感知、腳本式、回退等多種動態路由，按速度/成本/可用性最佳化。
- 代表：Cloudflare 的 Dynamic Routing 可用視覺化/JSON 編排條件、逾時/重試與回退。
成本/預算感知（預算感知）
- 代表：Cloudflare 動態路由的 JSON 支援count-based 與 cost-based 限制節點，可把「預算/花費」納入路由與回退流程。
- 代表：Portkey 與 LiteLLM 皆支援預算/速率限制（團隊/金鑰/用戶），常見做法是到額度就切換或阻擋。
容量感知（Rate-limit）
- 代表：Cloudflare 內建速率限制與回退，常與動態路由搭配。

可觀測性的支援度

在 AI Gateway 中的 LLM 可觀測性，並不只是侷限於把 Request(prompt) / Response 內容當作 Log 儲存起來而已。進階的場景完全可以實現分散式追蹤（Trace），並且進一步與 OpenTelemetry 深度整合。

請求級日誌與分析
- 代表：Cloudflare 提供逐請求日誌（模型、狀態、Token、成本、時長），並有分析面板（請求/Token/成本/快取/錯誤）。
分散式追蹤（Traces）與低耦合接入
- 代表：LiteLLM 平台支援與 OpenTelemetry 可觀測性後端系統整合，可非同步的傳送 LLM 應用的日誌 / 指標 / 追蹤到現有系統中，避免把可觀測功能成為 Critical Path。
- 代表：Portkey 也提供 OpenTelemetry 相容的觀測方案，方便與既有 APM 打通。
- 延伸：整合 OpenTelemetry 的好處是能把資料直接匯到 Datadog、Grafana 等第三方，形成全鏈路視角。
治理向欄位與審計（Audit）
- 代表：Kong 在使用 PII Sanitizer 時，審計日誌會增加 PII 偵測/脫敏的細節欄位（含處理耗時與類別）。

結語

目前在業界中 AI Gateway 的選擇沒有標準答案。但我們從以上介紹可以看得出來：LiteLLM 可能是最靈活的起點，Cloudflare 提供了最佳的快取性能，而 Kong 或 Portkey 則是企業級治理的基石。

聰明的架構師會將 AI Gateway 視為一個持續演進的控制平面，而非一次性的部署。選擇一個能與你的團隊持續進化的解決方案，才是長久之計。

【Day 18】探討 AI Gateway 架構：LLM 基礎設施的守護神

【Day 20】打造安全可靠的 AI 應用：深入解析 LLM Guardrail 與 AI Gateway

系列文

初探 LLM 可觀測性：打造可持續擴展的 AI 系統共 30 篇

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 則留言

kika

iT邦新手 2 級 ‧ 2025-11-03 19:35:16

謝謝大大寫這個系列

回應 1
檢舉

mikehsu0618 iT邦研究生 5 級 ‧ 2025-11-12 21:53:20 檢舉

感謝肯定：)

登入發表回應

我要留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

初探 LLM 可觀測性：打造可持續擴展的 AI 系統系列 第 19 篇