俗話說的好,打不贏Google,就加入他(!?)
什麼!加入不了?那至少可以學學他吧~Google這麼強大,背後一定有很多Know how是我們可以參考的。
這樣的心聲,Google聽到了!因此Google在2017年線上發表了SRE Book,分享了對於Site Reliability這件事他們所建構的監控和警報系統的基本原則和實踐方法。其中,產品經理最常廣泛討論的莫過於Google的4個黃金信號,就讓我們跟著Google 學學大前輩是如何看待這件事的吧!
前面幾篇文章闡述了許多要確認軟體服務運行順不順暢的目的,為求品質不出異常,我們會透過監控來確認諸多可能。
其中包含但不限於:
ex: 我的Database有多大,資料增長速度有多快?我的每日活躍用戶數增長速度有多快?
ex: 優化後的程式是否有讓查詢變得更快?網站是否比上週還慢?
ex: Database使用度已高達95%,需要立刻清掉一些資料!某個服務壞了,需要有人修理!
我們的延遲剛剛猛增;大約在同一時間還發生了什麼?連續兩個週末服務都有斷線又重啟的狀況,當時有跑什麼job嗎?
如我司,利用Grafana的Dashboard監控各種服務的上述問題,如以下示意圖:
而這樣的監控工具通常亦可包括SRE Book中提到的四個使用者體驗相關的黃金信號Golden Signals,至於是哪四個,請待我們下回分解:產品品質5: Google分享的4個軟體服務運行黃金信號