iT邦幫忙

2023 iThome 鐵人賽

DAY 23
1
自我挑戰組

SRE 照書養系列 第 23

Day 23 - SRE 照書養:管理風險

  • 分享至 

  • xImage
  •  

安安!祝大家國慶連假愉快!今天進到第三章囉!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧!

書中提到不可靠的系統可能會迅速侵蝕使用者的信心,因此期望能降低系統中斷的機會。然而,經驗顯示,隨著系統增長,成本並非隨著可靠性的增加而線性增加。一個微小的可靠性提升可能會需要比之前增加 100 倍的成本。這種成本存在在兩個方面:

  1. 冗餘的機械 / 計算資源的成本:這包括冗餘裝備的成本,如允許我們為例行或突發維護把系統下線,或提供存儲校驗資源的空間,以便提供最小的數據耐久性保證。
  2. 機會成本:當組織分配工程師資源來構建減少風險的系統或特性,而不是直接讓使用者可見或可用的特性時,所要承擔的成本。這些工程師就無法進行針對使用者的新特性和產品的工作了。

我們力求使一個服務足夠可靠,但不需要極度可靠。意思是,當我們設定一個 99.99% 的可用性目標時,希望超越這個目標(例如達成 3 個 9),但不是超越太多(例如達成 9 個 9,此為相較於前面目標來說,並非意指 9 個 9 就是過度可靠的意思),否則會浪費新增系統功能,清理技術債務,或降低其操作成本的機會。從某種意義上說,我們將可用性目標視為最小值和最大值。這種框架的主要優勢在於它為顯式和深思熟慮的風險承擔提供了可能性。

後記

今天理解了我們需要在「可靠性」跟「成本」之間做一個平衡,上面用示意的數字來表示區別,不過到底實際上什麼是「足夠可靠」跟「極度可靠」呢?接下來會提到相關的內容唷!祝大家假期愉快!明天見!掰噗!


上一篇
Day 22 - SRE 照書養:從莎士比亞搜索看 Google 內部服務交互(下)
下一篇
Day 24 - SRE 照書養:如何計算服務的風險?
系列文
SRE 照書養30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言