iT邦幫忙

2021 iThome 鐵人賽

DAY 26
0
Security

監控大挑戰 - 以 Zabbix 為例系列 第 26

Day 26. Zabbix 實際報警案例分享 - 機器服務被關機

今天跟大家分享關機與服務中斷的警報,如果有仔細觀察 Problem: /etc/passwd has been changed 指普通 information 等級。但是服務斷線 or 主機斷線警報會升級警告等級了。

主要介紹以下警報:Zabbix agent is not available (for 3m)、Zabbix server has been restarted (uptime < 10m)、MySQL: Service is down、HTTP service is down。

首先是 Zabbix agent is not available (for 3m):

發生這個原因通常就字面上就是 Agent 已經過三分鐘沒有啟動了,不過就我們在使用 Agent 的經驗是很穩定的,不會沒事就掛了,所以這個警報一響就意味著主機已經關機了,這樣就要開始查原因了。另外一件事就是其實算是人為失誤,在裝 Agent 的時候沒有設定開機啟動,也沒有自動啟動 (PS. 其實機器一多最好還是設上開機啟動)。

注意喔! 如果沒有確認 Agent 已連線就想 close 掉,沒有解決還是會持續跳出喔,除非把該項取消監控。

再來是 Zabbix server has been restarted (uptime < 10m):

這個比上一個還恐怖,原因是這樣的,我們的主機目前都虛擬化了,所以只要是跳電連 Zabbix Server 都會隨著關機,復電的時候有設定復電啟動,所以第一個通知就會是 has been restarted 了,當我們收到通知時就會知道剛機房斷電了 QQ ,目前還在努力找 UPS 資源中~

最近兩次跳警報的原因是 2021/05/13 全臺分組限電,所以就立馬提前關機。另一次是學校會定期針對高壓電檢修,也是提前關機。

最後 MySQL: Service is down、HTTP service is down :

這就是針對服務監控了,目前遇到的原因就是開機忘了設定開機啟動,或是維運人員調整參數需要重新啟動 XD。

內容如有介紹不周的地方,再麻煩大家提點,感激不盡。
同步發表 行雲部落格 再麻煩大家多多指教 謝謝
行雲者研發基地官網 粉絲專頁


上一篇
Day 25. Zabbix 實際報警案例分享 - 帳號資料被異動
下一篇
Day 27. Zabbix 實際報警案例分享 - 執行續異常飆高
系列文
監控大挑戰 - 以 Zabbix 為例30

尚未有邦友留言

立即登入留言