**我寫第一篇高有效性前言的 10 點的時候 (http://ithelp.ithome.com.tw/question/10075654), 有人就問我這 10 點是那三點最重要, 我一開始就說第一個步驟就是要了解如何監控與警示 Monitor and Alert, 因為高有效性最怕的就是 Fault 失效的時候, 而不可能存在一個一定不會失效的系統 (雖然這個可以有巧妙的反駁), 所以變成要如何知道出問題, 最快的時間發現問題, 以及更快的時間找到問題點與解決方法, 這才是最重要的事,這也是監控與警示為甚麼是第一要務的原因.
而後來寫了一篇很概念性的東西, 不要說你看了能夠做甚麼, 事實上是給那些已經入門的人來點頭用的, 無法做為一個基礎,只是種思維方式, 因為我是覺得有太多人不是不會做 Monitor, 是嘴上說 Monitor 很重要, 但事實上並沒有深入了解, 所以最後並沒有做的很踏實, 或者是理論基礎不太夠, 但我再寫理論下去, 不要說拿不到獎金, 大家也一定會昏睡了.**
監控這種事情有幾個重點:
不應該只用人去看, 所以用人去看的都只是個輔助, 尋找新的問題點與蛛絲馬跡, 所有已知的問題都是機器可以偵測得到才對, 至少是曾經發生過的事原因一定要被監控.
有正常的歷史才會知道不正常的現在與未來, 記錄每一份資料, 因為問題並不在於數值的多少, 往往是在於數值的變化與異常, 所以若是資料沒有進資料庫, 就無法比較.
有些監控是要從程式著手, 尤其是 Runtime Error, 至少對於使用者與來源一定要去記錄, 定義一些 Critical 的稽核點, 然後要記錄下來.
警示的等級不用區分太多, 且真的到手機並不用太多, 因為我們知道只要有夠多的 False Alarm, 就等於 No Alarm.
現在大部份的人若是用 Open Source 來去做監控, 大部份是用下面幾個系統去完成:
當然 MRTG 已經慢慢越來越少人用了, Munin 事實上是隱含包括 RRDTools, 所以在某方面可以說是可以用 Nagios 做 Alarm, Munin 做 Monitor 是最常見的, 但最近 OpenNMA 也越來越有人使用.
但這些系統在某方面多少還須要很多人工, 若是沒有自己有開發能力是無法使用的, 若是透過 SI 來做幫忙做 Monitor 的話, 通常是透過一些大場出的 NMA, 例如 OpenView, 之類的, 但通常是包成一個專案來執行的.
只是若只是用套裝軟體而不會自己寫 Agent 或是透過 MIB 去抓新的資訊的網管及 Monitor System, 肯定是不足夠的, 因為一個 High Availability 幾乎都是很獨特的 Uniq, 若不是寫專用程式去監測一定會有所不知, 甚至每一個系統的細節也不一樣, 我常常一台機器就至少有 100 個原始圖表的 500 個資料在讀取, 若加上各式各樣的 View, History 以及加工過後的就數千份, 這只是一台機器, 不太可能用人去看, 所以這個是用來出問題做判斷的, 不是用來即時監控的.
事實上我幾乎到每一間公司, 第一件事就是會建立電視牆, 這電視牆不只是以網管來建立 View, 也有行銷人員看的, 內容商品經營的人看的, 管理決策的人看的, 所以不只是機器面, 也包含業務面與管理面, 甚至是預測面的, 這樣的監控與警示才完整, 你的公司也這樣做了嗎?
有沒有想要知道有些電視牆該放那些內容呢?
長官...小弟超想知道的
公司最近主管有想要我們做這樣的東西
是戰情資料嗎?
讓潛在敵人現形喔~~