iT邦幫忙

2021 iThome 鐵人賽

DAY 10
0
DevOps

Dev's Ops 啟程系列 第 10

[Day 10] SRE - ON-CALL

ON-CALL

今天為大家介紹ON-CALL常見的須注意之事項 /images/emoticon/emoticon08.gif

建立心態

我為人人,人人為我,今天你幫大家解決問題,大家之後也會在你不便之時幫助你,以我們team的角度解決問題就對了!
需要掌握既有計畫時程與環境異動相關訊息。


人數均衡

每次有兩個成員進行on-call,一次輪一週,最好能每個月以上輪一次。
所以理想是每個on-call團隊至少要有8位成員,才不會讓人有天天都在on-call的地獄感,生活的品質也會大受影響。


品質平衡

當某個服務,在每次的輪值都會出現警報時,需要向上反應,要求追查並是否能根除,避免造成維運附載載過大。


獎勵制度

適當的獎勵,來增加ON-CALL獎勵,以減低大家對on-call的排斥感。


安全感

適當的進行一些演練,可以降低成員對於線上正式環境在操作的不安全感,帶給他們多一些信心,而那些演練會幫助成員,在事情發生時,帶入直覺並且快速行動。


避免負荷過載

  • 程式異動
  • 環境調整

以上兩種都是常常造成on-call人員的壓力山大的原因,當計畫中的異動很多時,一定要通知當週on-call人員一起討論可能遇到的狀況,以及如何牌以及如和排除。


避免鬆懈

心裡OS: 系統好久沒發出警報,是不是可能有些異常?
如果常常在沒警報的日子裡,就必須要保持戒心,不能想著每天平安,更要把一些事件提前做演練,才不會平安的日子過久了,突然來個海嘯,把整個系統殺個措手不及。


交接

交接是個重要的流程,將上輪遇到或可能遇到的事情交接給下輪的on-call人員,交接過程中我們要求on-call工程師要測試on-call可能會用到的工具,以確保on-call過程中萬一要用到時不會壞掉。


上一篇
[Day 9] SRE - 自動化
下一篇
[Day 11] SRE - 事後檢討,拜託拜託讓我吸個經驗值
系列文
Dev's Ops 啟程30

尚未有邦友留言

立即登入留言