2023 年是可觀測性發展的關鍵時刻,隨著 OpenTelemetry 社群的推廣,許多可觀測性解決方案逐漸成熟,而其中最引人注目的莫過於在開源軟體世界備受推崇的 Grafana Labs。尤其值得一提的是 Grafana Labs 經歷十年磨一劍,打造出 LGTM 產品線(包括 Loki、Grafana、Tempo、Mimir)。這些產品因其與雲原生技術的高度契合、彈性且成本低廉,以及與 Grafana 平台的深度整合,迅速成為眾人的焦點。於是後來的故事我們都知道了,圍繞 Grafana 全家桶的討論和分享如雨後春筍般在各大社群和會議中湧現。
隨著實務中的不斷探索,我逐漸累積了搭建大規模可觀測性基礎設施的經驗與心得。然而,隨著深入理解,我發現即便建構出一套完整的可觀測性基礎設施,也僅僅是邁出了實現可觀測性的第一步。回歸本質,當工具和團隊規模擴大,工程師們往往會陷入在使用者管理與設置維護上的疲憊,導致在享受到可觀測性所帶來的好處之前,已經感到力不從心。這也讓我開始反思,在我建立起這一切後,下一步應該如何在大規模系統中組織架構出一個好的 Grafana 生態,以及我們撇除這些工具後所能創造的價值。畢竟,總不能永遠只有 LGTM。
本系列文章將深入介紹 Grafana 在大規模團隊中的實務經驗,並探討如何通過 Gafana IaC 的方式來顛覆我們對 Grafana 設定管理的認知。最後,我們將補足可觀測性監控的最後一塊拼圖,首先探討告警在實務中的實作與團隊所面臨的痛點,並構建一個與 Grafana 生態高度整合的大型告警事件中心,實現從數據觀測到採取行動的成熟應對方式。
雖然我們不是數學家,但我知道這聽起來很酷!
在接下來的日子裡,我將根據自己的理解,深入淺出地為各位分享在 Grafana 上的各種實務經驗,並總結出精華議題。其中將涵蓋 Grafana 全家桶生態的基本概念,並實際以 Kubernetes 作為運作平台進行講解。
如果對於 Grafana 全家桶以及 Kubernetes 還不夠熟悉的朋友,不彷先回頭參考一下以下系列文:
又到了鐵人賽開賽的這一天了,照慣例的預祝每個奮鬥的黑眼圈鐵人們參賽順利,能夠在這短短的幾個月中,透過研究分享最終得到突飛猛進的理解,向自己嚮往的學習目標前進。
在今年的工作上,我幾乎獲得了一個在超大規模下全職實踐可觀測性工程的機會,這也讓我對於雲端、監控與可觀測性的生態擁有更多理解。在過程中,每天都面臨著對於實務現況權衡下,做出「最好」的選擇,也使我習慣了不斷反思更好的 Grafana 實踐,進而又讓我踏上今年的鐵人賽不歸路,三十篇的篇幅有限,作者的能力也很有限,希望能真正幫助到有需求的人。
在最後的段落我放了些,覺得很值得分享但無法在有限的三十天內向各位介紹的主題,或許能幫助你找到有興趣的研究方向,也或許我能在三十天後繼續補充這個系列。無論如何,如果你對任何主題有興趣或疑問,歡迎留下你的想法,或是敲破碗地成為我生出下一篇文章的動力。
為了版面乾淨,把 Bonus 移到留言處