【Day 30】完賽心得：當你凝視深淵，深淵也凝視著你

17th鐵人賽 ai llm agent observability

mikehsu0618

2025-10-14 01:02:47

727 瀏覽

分享至

完賽心得

鐵人賽挑戰的最後一天終於到來了。相比於去年的參賽經驗，我今年投入了更多的時間和精力，即便提前兩個半月開始準備，依然寫到了最後一天才完成所有內容。

最初決定參賽時，我並沒有明確的主題，因為過去半年到一年的工作經歷中，我接觸並深入理解了更多 LLM 應用的架構與可觀測性場景，並在實務中不斷累積經驗。這些經驗不僅限於技術領域，還涵蓋了團隊協作、成本治理、架構設計，以及如何建立一個能持續進化的 AI 系統。

在探索的過程中，我觀察到 LLM 領域涵蓋了非常廣泛的技術領域。我們不僅需要編寫 Agent 和 RAG 的核心邏輯，還需要確保它能穩定、安全地運作。但這些還不夠，往往我們還需要深入理解 MLOps、DevOps、Data Engineering 甚至是資安的知識，才能真正解決 LLM 應用在規模化後所面臨的治理與可觀測性痛點。因此，我們需要從 Agent、基礎設施到治理策略的不同層面進行整合，確保所搭建的 AI 平台能有效解決問題。這樣的廣度與深度，也使得進入企業級 LLM 應用領域具備一定的門檻。

如今，LLM 可觀測性與架構設計已經成為打造可靠 AI 應用的核心，不論是 Agent 的開發、RAG 的優化、成本的控制，甚至是模型的評估與持續迭代，都圍繞著一個穩健的平台來構建。我堅信，一個成熟的 LLM 生態，絕不僅僅是寫一個調用 API 的 RAG 腳本這麼簡單。

這次參賽，我選擇挑戰 LLM 領域中鮮少被提及的項目，也就是我系列文中深入探討的幾個核心主題：「企業級 AI Gateway 架構」、「LLM Agent 的可觀測性」以及「數據驅動的優化閉環」。這些議題在網路上難以找到標準答案，因為這些領域要麼因為技術發展太快而邊界模糊，要麼因為缺乏公開的成熟案例而難以參考。這也是許多新興技術常見的困境：單點的開源專案雖然靈活，但難以與其他專案深度整合，形成一個具備統一治理邏輯的平台，這也增加了開發與維運人員的心智負擔。

這正是我參賽的初衷——在探索的過程中，找到屬於自己的最佳實踐。雖然還有很多想法未能完全傳達，也有許多細節可以改進，但我依然為自己感到高興，因為我又一次堅持到了最後，朝理想中的自己邁進了一大步。我想，這就是鐵人賽想要傳遞的精神吧。

驗收過去的一年

延續每年的好習慣，我們來檢視一下，是否如願完成了去年為自己規劃的學習路線？幸運的是，答案是肯定的！

在前兩年，我已經逐漸掌握了 Grafana 生態，如 Loki、Tempo、Mimir 這組強大的技術組合，並且也了解在組織中如何有效的管理以 Grafana 為核心的可觀測性平台。也正因為這樣，我才能從 Grafana 可觀測性這個跳板，實際接觸到 LLM 應用，更難能可貴的是與我的 Grafana 遠征科研小隊完成了幾個自己非常滿意的作品，尤其是 Grafana OSS Assistant。

Grafana OSS Assistant

Grafana Assistant demo 連結

想像一下你在 Grafana 中，擁有一個像是 Cursor 介面的中強大的 AI 輔助幫手！

這是到目前為止，我自己最滿意的專案，也讓我有感的接收到熱烈的詢問。
代表著我自身對於 Grafana 與 AI Agent 的掌握度，已經到了可以做出真正吸引人的生產級別專案！這將會是我繼續努力前進的目標。

Grafana Session Replay

Session Replay 則是將 Faro Web SDK 和 Frontend Observability 模組原生整合在 Grafana 介面中的終極力作。不僅僅是介面整合，更是連遙測資料以及 Session Replay 資料都統一存進 Loki 當中，實現真正的原生 Grafana 生態端到端監控。

Grafana Alert LLM

Grafana Alert LLM demo 連結

而 Grafana Alert LLM 也是一個能夠原生內嵌在 Grafana 的模組，背後串連的是能將告警訊息持久化儲存在 Loki 的 AlertSnitch(在去年的系列中詳細介紹過)。而這個介面也能夠過 LLM 幫助消化大量的上下文，進而透過我們的告警通知隱藏的各種訊息，幫助我們找到真正的 Root Cause。