監控是整個維運乃至整個產品生命週期中最重要的一環,事前及時預警發現故障,事後提供詳實的資料用於追查定位問題。
小弟正在完善工作內部的監控項目、定義、指標
目前分類為:線路/網路、伺服器/設備、應用程式、資料庫,四大分類
其中想詢問的是虛擬機(virtual machine)
和實體機(Server)
兩者的監控指標差異點為何
目前我定義虛擬機(virtual machine)
指標項目有:
那就實體層的Server來說,CPU、Memory、Disk 指標上有什麼需要更細節的去關注嗎?
我在這方面的知識確實不足,有什麼文獻或書籍能參考的嗎?
希望能聽聽版上大大的經驗談
目前我監控都用Zabbix去監控vSphere virtual machine , 有正在學習如何使用vRealize Operations Manager 來達到 預估使用量 這個目的
我其實還少做監控。
不過還是會在其對應的AWS上設定如下的警告檢查。
可以提供給你參考。
1.CPU負載5分內平均值80%以上。
2.RAM使用量達到80%以上達10分以上。
3.月流量達到指定值
4.每小時流量超過指定值
5.空間已用70~90%以上,或是不足XXXGB。
其中流量部份會依照客戶的機器及空間容量來計算其對應的指定值。
空間則是視情況做調整。
不過大多數來說,流量部份會自動做壓制處理。基本現在我也很少做檢查了。
空間的部份還是會監控一下。
以上是大略的監控。其實都是在一開始就設定好後,就...完...全...不...管。
不過敢不管是因為備緩機制足夠。
讚!前輩跟我的理念很雷同
恩 ... 我現階段差不多也是這樣
但因為對CPU上下行, 磁碟I/O 還有很多認識不足的
想說這些有什麼指標是我該注意的
另外也是有被交代要將Switch也納入監控範圍
(但這已經超出我能力範圍了,所以努力讀書中..)
踏雪尋梅 現代的Host效能過甚,常常我掛了15個VM結果CPU均值一直沒有超過10%,若有問題直接就是跳100%,磁碟的IO則是受限於內部網路(我司只有Giga)很難會用到爆錶。
CPU均值一直沒有超過10%,若有問題直接就是跳100%
這狀況沒有其他徵兆可以預先知道嗎 ...
例如CPU ready or CPU 負載
Disk Usage > 80%,設為警報,未必喔! 200G x 80%; 1T x 80%; 10T x 80%; 完全是不一樣的情形。難以代表,必需人為介入的時機點。
swappiness=0 是 kernel 2.6 以下版本的舊觀念了,自 3.5 後有重大變更,要對應的值,建議的是什麼嗎?
其實我現在,很認真在思考這事情,不管如何都是主管交代的,一定有他的目的,因此很努力看這方面的Document
不曉得,兩位大大有沒有什麼能分享
看看你使用的工具還能監控什麼你覺得重要的東西啊
我們的監控軟體就還能監控主機的服務,程序,網站回應時間,網路流量等等。
這對我們來說是需要的,所以就會去啟用它。以後主機有些異常,就會拿這些平常監控到的數據做一些比對。
線路/網路、伺服器/設備、應用程式、資料庫,四大分類的監控指標
X!我甚麼都沒做耶!您的時間真多
一、網路
1.無聊就瞄一下防火牆日誌
2.全網所有裝置都加MAC Adress白名單
3.防火牆內對內防禦一定要做好
4.防火牆外對內RDP、SSH等會一直被駭客踹的Port一定要禁用
二、系統備援
1.完全虛擬化
2.每個虛擬機定期備份一台,把備出來的ON起來,原始的那份變成備份
3.內含DB的安排維護計畫循環備份
4.不管幾台虛擬機,配置時就不會讓其容量不足
5.實體機頂多早中晚進機房看看面板訊息和硬碟燈號
三、應用程式要監控甚麼?用戶都是受限制的使用者
四、資料庫壓縮:一年一次,尤其是財務關帳後
1.檔案伺服器=>NAS=>Google Workspace,單向異機、異地備份
2.檔案伺服器、NAS的歷史資料可以刪除,因為無限容量雲端上都有一份
3.Web Site至少一周備份一次,尤其是WordPress
把精力花在基礎建設上會比你花時間監控來的有意義
每次採購新設備一定要讓其五年內都夠用,每五年換新設備舊的當備援
增長率是一開始採購新設備時就要算好了,還沒到年限就不夠用老闆一定會覺得IT很廢
例如硬碟容量的安全值你設為80%,我則是50%,超過我就會進行碎片整理,歷史資料刪除
十年以上報廢就這麼簡單
我從來沒讓任職的公司網路中斷後沒備用網路,也沒讓公司系統業務中斷過,最重要的是資料沒漏失過。
追一下謹慎勇者,這部動畫應該可以給你很好的啟發。
基礎建設及備份,也都會完善進行
只是想說做好合理的監控,來預防一些災害
謹慎勇者 這是啥?
每個虛擬機定期備份一台,把備出來的ON起來,原始的那份變成備份
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
這是為什麼 ?
我猜雷伊這個做法,是為了實踐備份出來的是可用的吧
2015evanotes 謹慎勇者是一部動畫(勇者在新手村時就把自己練到滿級,小怪被打倒後還用大招焚燒屍體避免牠復活),很多人備份完就不管了,你備份出來的VM你確定都沒問題?
踏雪尋梅 正解,樓主也很謹慎!