iT邦幫忙

2021 iThome 鐵人賽

DAY 8
0
DevOps

Dev's Ops 啟程系列 第 8

[Day 8] SRE - 火炎焱燚之保衛戰

火燒起來怎麼辦?

當你聽到手機有叮咚叮咚,一連串的alert表示服務已無法繼續服務,幾分鐘後電話來了,通報案件後,你該如何是好?


先保持冷靜

保持冷靜,避免過度警張,太緊張會讓你的腦袋空白,會不知如何思考!甚至影響你平常訓練後的判斷。


記得角色分配

  • 事件主導者

    簡單來說就是一個領班,進行任務分配工作給你的團隊,讓處理團隊可以有效有序地解決問題,當然如果人不夠的時候也要加入執行任務。

  • 維運人員

    進行事件分析、除錯,如果有要執行的動作先回報事件主導者等候指令。

  • 其他人員

    盡可能不要干預正在處理事情的人員,幫忙其他任務例如測試,協助思考問題主因。


保持公開的溝通

這點非常重要,如果另外拉一個群組討論,最好能把要協助處理的人員全部拉進去,避免[A人員]叫[B人員]做什麼[動作-1],[C人員]也同時也叫[B人員]做什麼[動作-2],可能讓最後導致災難性的連鎖反應,ex:兩個動作可能有先後順序的關係!時間軸安排不對的話,可能整個資料會亂掉之類的。


步步為營

照著[Day 7] SRE - 故障排除小技巧

用小心謹慎的態度,一步一步來,穩穩地化解危機,在正式環境處理時,請務必保持敬畏的心。


信任

對於每個參與事件處理的人員,分配職責後要對他們有充分的信任,若對處理人員無信任的話,會對於處理事情效能大幅降低,甚至破壞團隊默契。


情緒管理

每個人遇到危機事件時,或多或少都有可能過度緊張,適當的深呼吸以及自我提醒,若自己已經無法思考下一步時,應趕緊向同仁尋求更多協助,這不能怪罪於自己或他人。


B方案

當目前團隊照著事件主導者按部就班時,事件主導者也要另外想B方案,當這個流程無法解決問題時怎麼辦。


定期演練計畫

這個幾天後,我會另外寫一篇文章跟各位說明。

主要就是定期安排全員災害演練的流程~


今日小結

對於事件的發生可以參考上述之技巧分解,記住!小小的東西沒處理好,可能會造成星火燎原阿!!!
燒起來的可能不只是事件,也可能是團隊的感情......。/images/emoticon/emoticon70.gif


上一篇
[Day 7] SRE - 故障排除小技巧
下一篇
[Day 9] SRE - 自動化
系列文
Dev's Ops 啟程30

尚未有邦友留言

立即登入留言