今天為大家介紹ON-CALL常見的須注意之事項
我為人人,人人為我,今天你幫大家解決問題,大家之後也會在你不便之時幫助你,以我們team的角度解決問題就對了!
需要掌握既有計畫時程與環境異動相關訊息。
每次有兩個成員進行on-call,一次輪一週,最好能每個月以上輪一次。
所以理想是每個on-call團隊至少要有8位成員,才不會讓人有天天都在on-call的地獄感,生活的品質也會大受影響。
當某個服務,在每次的輪值都會出現警報時,需要向上反應,要求追查並是否能根除,避免造成維運附載載過大。
適當的獎勵,來增加ON-CALL獎勵,以減低大家對on-call的排斥感。
適當的進行一些演練,可以降低成員對於線上正式環境在操作的不安全感,帶給他們多一些信心,而那些演練會幫助成員,在事情發生時,帶入直覺並且快速行動。
以上兩種都是常常造成on-call人員的壓力山大的原因,當計畫中的異動很多時,一定要通知當週on-call人員一起討論可能遇到的狀況,以及如何牌以及如和排除。
心裡OS: 系統好久沒發出警報,是不是可能有些異常?
如果常常在沒警報的日子裡,就必須要保持戒心,不能想著每天平安,更要把一些事件提前做演練,才不會平安的日子過久了,突然來個海嘯,把整個系統殺個措手不及。
交接是個重要的流程,將上輪遇到或可能遇到的事情交接給下輪的on-call人員,交接過程中我們要求on-call工程師要測試on-call可能會用到的工具,以確保on-call過程中萬一要用到時不會壞掉。