什麼是「單點故障」?
單點故障的英文是 (single point of failure,簡稱 SPOF),指的是系統上的某一個物理節點故障,而導致整個系統無法運作的現象。
通常這個名稱,我們比較常把它用在系統或網路架構上。
例如下圖一,若架構設計上只有一台SAN Switch,則此時「A點」便存在SPOF風險。
當它故障時,整個VM系統就會無法運作。
圖一、
因此設計上為了滿足高可用(High Availability),我們會把系統架構設計為下圖:
圖二、
這就是為什麼Infra需要理解單點故障,一旦發生SPOF,輕則只是短暫影響,重則就是一場災難。
通常公司越重要(critical)的系統,我們越希望能具備高可用度 High Availability
經過幾年的Infra管理及親身體驗,個人認為「單點故障」再延伸後可以包含以下幾點:
1.硬體
硬體的SPOF就像圖一的例子,當架構設計不良或經費考量只能盡量滿足現況時就會存在風險,即使設計如圖二,仍然存在儲存故障的風險。因此高可用=高成本,實際上大部分企業只能盡量滿足,而無法全面滿足SPOF。
2.網路
網路的架構和硬體雷同,我們必須考量專線斷線、防火牆故障、交換器故障的可能性。
3.電力
電力包含了電源電路、UPS不斷電系統、硬體是否具備冗餘電源系統 (Redundant Power System)。
4.空調
空調通常是機房設備冷卻的重要設施,也需要有備援,大企業通常會使用兩台空調交換運作。機房一旦溫度升高就會造成設備的停擺或損壞,個人就曾經遇過兩台一起故障,且機房八成的設備因過熱一起亮橘燈。
5.人
人的管理其實是一個企業忽略的隱憂,人員按錯開關導致SAN Switch關機以及機電人員(非MIS)誤將機房總開關OFF(UPS 開始倒數計時),都是個人遇過的切身之痛。
以上就是這些年【Infra】管理一些心得,我發現機房、系統架構設計的再好,都不能滿足SPOF風險(除非該企業有双活資料中心),
【人員的管理才是單點故障最大風險】