iT邦幫忙

2021 iThome 鐵人賽

DAY 6
0
DevOps

Dev's Ops 啟程系列 第 6

[Day 6] SRE - 起身對抗活在警報中的惡魔

警報疲乏

相信大家都聽過「放羊的孩子」的伊索寓言故事。

今天我們探討的問題是當團隊中的警報器常常發生不是「真正的警報」而是「假警報」時,會導致大家對於警報的警覺性慢慢地降低!常常發生這種現象對於整個團隊的危機處理能力會大幅打折,會造成團隊的成員身心疲勞。

而最貼近生活的例子就是當你所在的大樓常常發生,消防警報而每次管理員都說是誤觸,甚至沒人在意的話,當真正的火災發生時,大樓內的人都以為是「假警報」,而錯失黃金避難的時間,以最近的彰化防疫旅館火災事件來說看起來就是,旅館老闆甚至員工已經產生警報疲乏的現象,最後導致遺憾。

「假警報」無可避免的一定會發生,大家也會對於警報的信任度慢慢產生疲乏感,但發生後的處理流程,也一定要進行除錯把主因找出來並討論出方法讓它不再發生,避免一再發生進而增加警報的準確性,這能讓團隊內的大家從對警報的疲乏慢慢恢復。

文章來源 : https://fractio.nl/2014/08/26/cardiac-alarms-and-ops/

在此文章提到

If alarms are more often false than true, a culture emerges on the unit in that staff may delay response to alarms, especially when staff are engaged in other patient care activities, and more important critical alarms may be missed.

在on-call的情況下,作者認為有兩個主因會造成警報疲勞:

  • 警報的準確性
  • 收到的警報數量

https://ithelp.ithome.com.tw/upload/images/20210914/20115289D6hEgRADkG.png
對於警報的信心指數,隨著「假警報」的發生與去除,要維持平衡,「假警報」的發生會使對於警報的信心指數下降,反之「假警報」的根源去除會使對於警報的信心指數提升。

最後文章提到
如何改善警報疲乏:

  • 建立一個多元的警報團隊(dev, ops, 管理人員)。
  • 從您的監控系統中取得和分析警報數據。
  • 移除無法操作或可能自動恢復的警報。
  • 標準化預設警報設定,允許回應警報的人員進行彈性異動。

以上的建議,在對於團隊警報疲乏都有一定的幫助,如果大大們也有在團隊內發生這種現象,建議大家試著建議去改善。


上一篇
[Day 5] SRE - 發動測試左移之術,預視未來的機制
下一篇
[Day 7] SRE - 故障排除小技巧
系列文
Dev's Ops 啟程30

尚未有邦友留言

立即登入留言