iT邦幫忙

2021 iThome 鐵人賽

DAY 12
0
DevOps

Dev's Ops 啟程系列 第 12

[Day 12] SRE - 定期演練計畫

災害模擬演練

今天跟各位分享一下,我們團隊從零開始的定期演練流程。/images/emoticon/emoticon12.gif

事前準備

先開個google試算表,與團隊成員共享。
開個「模擬事件List」分頁,然後貼到群組請大家又空幫忙想,不管是大大小小的問題,只要可能會出現的,就列上去。


事件管理

在每次事件發生過後,我會把事件紀錄到google試算表上。
通常事件會分兩種:

  • 會再次出現
  • 不會再出現

把會再次出現的事件放到「模擬事件List」分頁存放。


演練計畫

  • 頻率:每週五,或是每次on-call人員交班日
  • 人數:全員
  • 角色分配:
    • on-call人員兩名
    • 事件主導者一名
    • 其他人作為觀察者學習

流程

進入會議室 -> 主持人 -> 抽一名事件主導者 -> 抽一件事件 -> 開始演練 -> 演練完,討論事件處理是否有無待改善的地方,或是哪邊有不順的地方需要釐清。

如何抽籤

我推薦 https://wheelofnames.com/ 這個線上轉輪盤抽籤網,蠻好用的!我都用這個網站來讓大家抽籤,你們可以用自己想自訂的抽籤方式,都ok~


事件演練

從模擬事件List抽事件抽籤,進行災和模擬演練,流程若不順利,或有地方怪怪的大家都會提醒或再檢討。


萬事起頭難

如何帶著沒經驗的大家導入,我是找跟我一起on-call的同事跟他說我想要玩這個,然後跟他講好處,再來就是找我下一輪的on-call同事說明,等到on-call交接到我這輪時就開始帶著大家試玩,先從試玩的角度帶著大家導入成為習慣。


持續演練!!

當團隊都有持續在進行災害演練時,一定會遇到「模擬事件List」都演練過了,那麼你們就可以再整理一下「模擬事件List」,然後再繼續演練或者更換不同形式,帶入不同角色讓大家嘗試。


上一篇
[Day 11] SRE - 事後檢討,拜託拜託讓我吸個經驗值
下一篇
[Day 13] SRE - 悟
系列文
Dev's Ops 啟程30

尚未有邦友留言

立即登入留言