如今,Grafana 幾乎成為監控與可觀測性領域的代名詞。作者在過去數年的實務中,分別於小型、中型與大型團隊中搭建完整的 Grafana 生態。隨著對 Grafana 理解日益加深,使我不斷反思:何謂一個「經過妥善設計且體驗良好」的 Grafana 系統?
本系列文將與各位一同經歷作者過往的經驗、現今的實踐,以及未來的想像。內容涵蓋 Grafana Dashboard 最佳實踐、大規模團隊架構演進、Grafana IaC 設計,並探討如何搭建大型告警事件中心。在 Grafana 誕生的黃金十年後,透過與自己對話的過程,提升對技術與架構的見解,培養「後 Grafana 時代」需具備的自我修養。
前言 在本系列文章中,我著重於如何透過良好的告警事件管理來減輕維運人員的負擔,並降低 MTTR(平均修復時間)等關鍵指標。維運人員常見的告警痛點包括:告警疲勞(...
前言 在前一篇文章中,我們概述了 AlertSnitch 的功能和應用場景,特別是在告警歷史可視化中的重要性。後來有好幾個小夥伴紛紛表示對 AlertSnitc...