iT邦幫忙

0

關於 IT人日常監控指標 疑問

  • 分享至 

  • xImage

監控是整個維運乃至整個產品生命週期中最重要的一環,事前及時預警發現故障,事後提供詳實的資料用於追查定位問題。

小弟正在完善工作內部的監控項目、定義、指標

目前分類為:線路/網路、伺服器/設備、應用程式、資料庫,四大分類

其中想詢問的是虛擬機(virtual machine)實體機(Server)兩者的監控指標差異點為何

目前我定義虛擬機(virtual machine) 指標項目有:
https://ithelp.ithome.com.tw/upload/images/20210421/20114520kvBpEMPmcD.png

那就實體層的Server來說,CPU、Memory、Disk 指標上有什麼需要更細節的去關注嗎?

我在這方面的知識確實不足,有什麼文獻或書籍能參考的嗎?

希望能聽聽版上大大的經驗談


目前我監控都用Zabbix去監控vSphere virtual machine , 有正在學習如何使用vRealize Operations Manager 來達到 預估使用量 這個目的

圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中
5
㊣浩瀚星空㊣
iT邦大神 1 級 ‧ 2021-04-21 18:21:38
最佳解答

我其實還少做監控。
不過還是會在其對應的AWS上設定如下的警告檢查。
可以提供給你參考。

1.CPU負載5分內平均值80%以上。
2.RAM使用量達到80%以上達10分以上。
3.月流量達到指定值
4.每小時流量超過指定值
5.空間已用70~90%以上,或是不足XXXGB。

其中流量部份會依照客戶的機器及空間容量來計算其對應的指定值。
空間則是視情況做調整。

不過大多數來說,流量部份會自動做壓制處理。基本現在我也很少做檢查了。
空間的部份還是會監控一下。

以上是大略的監控。其實都是在一開始就設定好後,就...完...全...不...管。

不過敢不管是因為備緩機制足夠。

看更多先前的回應...收起先前的回應...
雷伊 iT邦高手 1 級 ‧ 2021-04-21 18:25:09 檢舉

讚!前輩跟我的理念很雷同

踏雪尋梅 iT邦研究生 5 級 ‧ 2021-04-22 10:20:59 檢舉

恩 ... 我現階段差不多也是這樣

但因為對CPU上下行, 磁碟I/O 還有很多認識不足的
想說這些有什麼指標是我該注意的

另外也是有被交代要將Switch也納入監控範圍
(但這已經超出我能力範圍了,所以努力讀書中..)

雷伊 iT邦高手 1 級 ‧ 2021-04-23 14:51:09 檢舉

踏雪尋梅 現代的Host效能過甚,常常我掛了15個VM結果CPU均值一直沒有超過10%,若有問題直接就是跳100%,磁碟的IO則是受限於內部網路(我司只有Giga)很難會用到爆錶。

踏雪尋梅 iT邦研究生 5 級 ‧ 2021-04-28 10:37:56 檢舉

CPU均值一直沒有超過10%,若有問題直接就是跳100%

這狀況沒有其他徵兆可以預先知道嗎 ...

例如CPU ready or CPU 負載

踏雪尋梅 iT邦研究生 5 級 ‧ 2021-04-28 10:40:48 檢舉
  1. Disk Usage > 80%,設為警報,未必喔! 200G x 80%; 1T x 80%; 10T x 80%; 完全是不一樣的情形。難以代表,必需人為介入的時機點。

  2. swappiness=0 是 kernel 2.6 以下版本的舊觀念了,自 3.5 後有重大變更,要對應的值,建議的是什麼嗎?

其實我現在,很認真在思考這事情,不管如何都是主管交代的,一定有他的目的,因此很努力看這方面的Document

不曉得,兩位大大有沒有什麼能分享

補充:
https://kernelnewbies.org/Linux_3.5#Memory_Management

踏雪尋梅 iT邦研究生 5 級 ‧ 2021-04-28 11:23:58 檢舉

你沒看我空間是用不確定數嘛??
而且正常來說,總容量是確定數的。
一開始設定警告不會很難的。
因為你不可能天天更換總容量。

至於CPU均值,本來就不會超過10%。
且CPU隨時都會使用到100%。只要你有在正常工作。
隨便開個影片,畫個圖,解個壓縮。都有機會將CPU用到100%

會用均值就是不會去檢查單純的瞬間用量。要不然你警告報不完。

踏雪尋梅 iT邦研究生 5 級 ‧ 2021-04-29 13:54:27 檢舉

恩 ... 思考中

目前我VM的記憶體關鍵指標
也不是
Memory utilization
Free swap space in %
... 持續上網看相關的Document

1
eynysina
iT邦新手 5 級 ‧ 2021-04-21 17:49:00

看看你使用的工具還能監控什麼你覺得重要的東西啊
我們的監控軟體就還能監控主機的服務,程序,網站回應時間,網路流量等等。
這對我們來說是需要的,所以就會去啟用它。以後主機有些異常,就會拿這些平常監控到的數據做一些比對。

踏雪尋梅 iT邦研究生 5 級 ‧ 2021-04-22 10:18:29 檢舉

主要是想問,因為知識和經驗有限
有詢問有沒有什麼事我漏掉的指標

4
雷伊
iT邦高手 1 級 ‧ 2021-04-21 17:50:40

線路/網路、伺服器/設備、應用程式、資料庫,四大分類的監控指標
X!我甚麼都沒做耶!您的時間真多

一、網路
1.無聊就瞄一下防火牆日誌
2.全網所有裝置都加MAC Adress白名單
3.防火牆內對內防禦一定要做好
4.防火牆外對內RDP、SSH等會一直被駭客踹的Port一定要禁用
二、系統備援
1.完全虛擬化
2.每個虛擬機定期備份一台,把備出來的ON起來,原始的那份變成備份
3.內含DB的安排維護計畫循環備份
4.不管幾台虛擬機,配置時就不會讓其容量不足
5.實體機頂多早中晚進機房看看面板訊息和硬碟燈號
三、應用程式要監控甚麼?用戶都是受限制的使用者
四、資料庫壓縮:一年一次,尤其是財務關帳後
1.檔案伺服器=>NAS=>Google Workspace,單向異機、異地備份
2.檔案伺服器、NAS的歷史資料可以刪除,因為無限容量雲端上都有一份
3.Web Site至少一周備份一次,尤其是WordPress

把精力花在基礎建設上會比你花時間監控來的有意義
每次採購新設備一定要讓其五年內都夠用,每五年換新設備舊的當備援
增長率是一開始採購新設備時就要算好了,還沒到年限就不夠用老闆一定會覺得IT很廢
例如硬碟容量的安全值你設為80%,我則是50%,超過我就會進行碎片整理,歷史資料刪除
https://ithelp.ithome.com.tw/upload/images/20210421/20117139n2wnhmmfXu.png
十年以上報廢就這麼簡單

我從來沒讓任職的公司網路中斷後沒備用網路,也沒讓公司系統業務中斷過,最重要的是資料沒漏失過。

追一下謹慎勇者,這部動畫應該可以給你很好的啟發。

看更多先前的回應...收起先前的回應...
踏雪尋梅 iT邦研究生 5 級 ‧ 2021-04-22 10:19:43 檢舉

基礎建設及備份,也都會完善進行
只是想說做好合理的監控,來預防一些災害

謹慎勇者 這是啥?

每個虛擬機定期備份一台,把備出來的ON起來,原始的那份變成備份
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
這是為什麼 ?

踏雪尋梅 iT邦研究生 5 級 ‧ 2021-04-23 13:37:37 檢舉

我猜雷伊這個做法,是為了實踐備份出來的是可用的吧

雷伊 iT邦高手 1 級 ‧ 2021-04-23 14:41:19 檢舉

2015evanotes 謹慎勇者是一部動畫(勇者在新手村時就把自己練到滿級,小怪被打倒後還用大招焚燒屍體避免牠復活),很多人備份完就不管了,你備份出來的VM你確定都沒問題?

雷伊 iT邦高手 1 級 ‧ 2021-04-23 14:42:43 檢舉

踏雪尋梅 正解,樓主也很謹慎!

我要發表回答

立即登入回答