鐵人賽挑戰的最後一天終於到來了。相比於去年的參賽經驗,我今年投入了更多的時間和精力,即便提前兩個半月開始準備,依然寫到了最後一天才完成所有內容。
最初決定參賽時,我並沒有明確的主題,因為過去半年到一年的工作經歷中,我接觸並深入理解了更多 LLM 應用的架構與可觀測性場景,並在實務中不斷累積經驗。這些經驗不僅限於技術領域,還涵蓋了團隊協作、成本治理、架構設計,以及如何建立一個能持續進化的 AI 系統。
在探索的過程中,我觀察到 LLM 領域涵蓋了非常廣泛的技術領域。我們不僅需要編寫 Agent 和 RAG 的核心邏輯,還需要確保它能穩定、安全地運作。但這些還不夠,往往我們還需要深入理解 MLOps、DevOps、Data Engineering 甚至是資安的知識,才能真正解決 LLM 應用在規模化後所面臨的治理與可觀測性痛點。因此,我們需要從 Agent、基礎設施到治理策略的不同層面進行整合,確保所搭建的 AI 平台能有效解決問題。這樣的廣度與深度,也使得進入企業級 LLM 應用領域具備一定的門檻。
如今,LLM 可觀測性與架構設計已經成為打造可靠 AI 應用的核心,不論是 Agent 的開發、RAG 的優化、成本的控制,甚至是模型的評估與持續迭代,都圍繞著一個穩健的平台來構建。我堅信,一個成熟的 LLM 生態,絕不僅僅是寫一個調用 API 的 RAG 腳本這麼簡單。
這次參賽,我選擇挑戰 LLM 領域中鮮少被提及的項目,也就是我系列文中深入探討的幾個核心主題:「企業級 AI Gateway 架構」、「LLM Agent 的可觀測性」以及「數據驅動的優化閉環」。這些議題在網路上難以找到標準答案,因為這些領域要麼因為技術發展太快而邊界模糊,要麼因為缺乏公開的成熟案例而難以參考。這也是許多新興技術常見的困境:單點的開源專案雖然靈活,但難以與其他專案深度整合,形成一個具備統一治理邏輯的平台,這也增加了開發與維運人員的心智負擔。
這正是我參賽的初衷——在探索的過程中,找到屬於自己的最佳實踐。雖然還有很多想法未能完全傳達,也有許多細節可以改進,但我依然為自己感到高興,因為我又一次堅持到了最後,朝理想中的自己邁進了一大步。我想,這就是鐵人賽想要傳遞的精神吧。
延續每年的好習慣,我們來檢視一下,是否如願完成了去年為自己規劃的學習路線?幸運的是,答案是肯定的!
在前兩年,我已經逐漸掌握了 Grafana 生態,如 Loki、Tempo、Mimir 這組強大的技術組合,並且也了解在組織中如何有效的管理以 Grafana 為核心的可觀測性平台。也正因為這樣,我才能從 Grafana 可觀測性這個跳板,實際接觸到 LLM 應用,更難能可貴的是與我的 Grafana 遠征科研小隊完成了幾個自己非常滿意的作品,尤其是 Grafana OSS Assistant。
想像一下你在 Grafana 中,擁有一個像是 Cursor 介面的中強大的 AI 輔助幫手!
這是到目前為止,我自己最滿意的專案,也讓我有感的接收到熱烈的詢問。
代表著我自身對於 Grafana 與 AI Agent 的掌握度,已經到了可以做出真正吸引人的生產級別專案!這將會是我繼續努力前進的目標。
Session Replay 則是將 Faro Web SDK 和 Frontend Observability 模組原生整合在 Grafana 介面中的終極力作。不僅僅是介面整合,更是連遙測資料以及 Session Replay 資料都統一存進 Loki 當中,實現真正的原生 Grafana 生態端到端監控。
而 Grafana Alert LLM 也是一個能夠原生內嵌在 Grafana 的模組,背後串連的是能將告警訊息持久化儲存在 Loki 的 AlertSnitch(在去年的系列中詳細介紹過)。而這個介面也能夠過 LLM 幫助消化大量的上下文,進而透過我們的告警通知隱藏的各種訊息,幫助我們找到真正的 Root Cause。
首先要恭喜各個堅持到這裡的鐵人們,三十天三十篇文章,背後經歷著無數下班後奮鬥的夜晚,只有每位鐵人自己知道。在這些日子中,自己給的壓力完全不小於工作,在探討許多沒有答案的難題時,我也解答了自己很多放在心中許久的疑問。
Github:https://github.com/MikeHsu0618
Facebook:https://www.facebook.com/mike.hsu.775
Linkdin:https://www.linkedin.com/in/hung-hsiang-hsu
Gmail:a3695821tw11@gmail.com