國慶連假第三天!今天來看服務的風險容忍度,稍微翻了這章節,這裡書裡談的服務類型分成兩種:「消費者服務」跟「基礎建設服務」!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧!
在辨別服務的風險容忍度時,必須將商業目標轉化為明確的工程目標,這個目標會直接影響服務性能和可靠度。
書中提到在 Google 中,這一個過程並不明確,需要 SRE 與產品經理共同努力討論出商業目標,並依據此目標去設計性能和可靠度指標。
此外,消費者類型的服務與基礎設施服務在產品所有權結構上存在顯著差異,如存儲系統或HTTP緩存層等基礎設施服務較少具有明確的產品所有權結構,因此我們會分成上下集來討論。
Google 的消費者服務通常由一個產品團隊負責,這個團隊知道用戶和業務的需求,並在市場上打造產品的定位。評估服務的風險容忍度時,我們要考慮許多因素,比如:
可用性目標和服務的定位密切相關,書中舉了兩個不同的例子:例如 Google Apps for Work 主要為企業用戶提供服務,如果服務中斷,不僅會影響 Google,也會影響所有依賴我們的企業,因此我們可能會為這類服務設定 99.9% 的外部可用性目標,並簽署罰款協議以防止我們未達到目標。對於 YouTube 來說,由於其定位和用戶群體不同,其可用性目標會低一些,因為快速發展更重要。
對未來可能出現的故障類型也要有所預期,例如:
書中舉例像私人訊息系統那樣,暴露私人數據的風險相對於上傳頭貼功能中斷來說,前者更可能會破壞基本的用戶信任,因此,在進行調試和數據清理期間,完全停止服務將是最恰當的。
今天看了兩個影響消費者服務的風險容忍度的因素!明天接著來看消費者服務的風險容忍度的另外兩個因素: 「成本」跟「其他服務指標」!那就明天見囉!掰噗!