iT邦幫忙

2023 iThome 鐵人賽

DAY 25
1
自我挑戰組

SRE 照書養系列 第 25

Day 25 - SRE 照書養:消費者服務的風險容忍度(上)

  • 分享至 

  • xImage
  •  

國慶連假第三天!今天來看服務的風險容忍度,稍微翻了這章節,這裡書裡談的服務類型分成兩種:「消費者服務」跟「基礎建設服務」!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧!

在辨別服務的風險容忍度時,必須將商業目標轉化為明確的工程目標,這個目標會直接影響服務性能和可靠度。

書中提到在 Google 中,這一個過程並不明確,需要 SRE 與產品經理共同努力討論出商業目標,並依據此目標去設計性能和可靠度指標。

此外,消費者類型的服務與基礎設施服務在產品所有權結構上存在顯著差異,如存儲系統或HTTP緩存層等基礎設施服務較少具有明確的產品所有權結構,因此我們會分成上下集來討論。

Google 的消費者服務通常由一個產品團隊負責,這個團隊知道用戶和業務的需求,並在市場上打造產品的定位。評估服務的風險容忍度時,我們要考慮許多因素,比如:

  • 我們需要的可用性水平是什麼?
  • 不同類型的失敗對服務有什麼樣的影響?
  • 我們如何利用服務成本在風險曲線上定位這個服務?
  • 還有其他哪些重要的服務指標需要考慮?

可用性目標

可用性目標和服務的定位密切相關,書中舉了兩個不同的例子:例如 Google Apps for Work 主要為企業用戶提供服務,如果服務中斷,不僅會影響 Google,也會影響所有依賴我們的企業,因此我們可能會為這類服務設定 99.9% 的外部可用性目標,並簽署罰款協議以防止我們未達到目標。對於 YouTube 來說,由於其定位和用戶群體不同,其可用性目標會低一些,因為快速發展更重要。

故障類型

對未來可能出現的故障類型也要有所預期,例如:

  • 我們的業務對於服務的停機時間的容忍程度有多高?
  • 持續的低故障率或者偶爾發生的全網中斷哪一個會更糟糕?

書中舉例像私人訊息系統那樣,暴露私人數據的風險相對於上傳頭貼功能中斷來說,前者更可能會破壞基本的用戶信任,因此,在進行調試和數據清理期間,完全停止服務將是最恰當的。

後記

今天看了兩個影響消費者服務的風險容忍度的因素!明天接著來看消費者服務的風險容忍度的另外兩個因素: 「成本」跟「其他服務指標」!那就明天見囉!掰噗!


上一篇
Day 24 - SRE 照書養:如何計算服務的風險?
下一篇
Day 26 - SRE 照書養:消費者服務的風險容忍度(下)
系列文
SRE 照書養30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言