學渣做完專題之後被維運問題搞到懷疑人生,於是決定閱讀 google 的 SRE book 精進自己,並幫專題登大人,順便記錄下這段時間閱讀的收穫。
背景 這次有幸受到學弟邀請來參加鐵人賽,本來是想要寫 godot 的教學的(留到之後有機會再分享吧),然而想到我也即將畢業,而當初大二時修軟體工程所留下的專案恐...
那麼,我們今天就來談談到底 SRE 是什麼,以及他如何在軟體的生命週期發揮作用吧。 SRE 的由來 SRE,全稱為 Site Reliability Engin...
昨天提到了有關監控的議題,監控服務的其中一個目的是為了在系統發生錯誤的時候可以即時的通知相關人員,其中一個常見的手法便是架設 status page。 什麼是...
經過昨天的一番努力,我們已經可以在服務無法存取的時候收到通知,那麼今天就來看看另一個議題:服務的重啟。畢竟,收到通知之後還是得人工解決問題,但若是解決方法只是單...
前天使用 updown.io 架設了 status page,並且讓它可以在服務無法連上的時候,自動發通知到 slack 頻道。這便算是一種警報,告訴相關人員說...
昨天稍微談到了一些有關警報的設計,然而,警報的發出與否,應是建立在我們觀測到的一些系統的行為,例如說在 Day 3 架設的 status page,就是基於「是...
講到監控,Prometheus 應該算是最常被提及的其中一個工具,它是一套開源的監控與警報系統,最早由 SoundCloud 開發,並在 2016 年進入 CN...
昨天簡單介紹過 Prometheus 了,那麼今天我們就自己架一個來玩看看吧。嘗試任何一個新工具的第一個步驟,就是找看看他有沒有官方 image 可以用 (x)...
昨天我們成功的讓 Prometheus 可以採集到一些指標了,可是為了瞭解服務的狀態,我們還需要自己提供指標,像是以 web server 來講,可能就需要諸如...
設定 alerting rules 昨天成功的讓 Prometheus 收集了一些指標,那麼今天就來設定警報吧。要做警報的話,在 Prometheus 裡面是透...