iT邦幫忙

sre相關文章
共有 87 則文章
鐵人賽 自我挑戰組 DAY 30
SRE 照書養 系列 第 30

技術 Day 30 - SRE 照書養:錯誤預算的構建與好處

今天是完賽日(歡呼),但是書肯定是要繼續努力看的吧!目標是把第三章讀完!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧! 書中提到為了做出...

鐵人賽 DevOps

技術 番外篇:棒球賽後續,來自ElastiCache的挑戰

前言 在日常維運系列文章中,曾經有提到過一個關於棒球賽的大流量維運工作,當時的進度停留在透過資料庫加開來因應,也分享了一些加開過程中觀察到的有趣現象,並提到未來...

鐵人賽 自我挑戰組 DAY 29
SRE 照書養 系列 第 29

技術 Day 29 - SRE 照書養:使用錯誤預算的目的

安安週五大家好!時光飛逝,一轉眼就快放假了(誒?),這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧! 本書其他章節探討的緊張關係源於產品研...

鐵人賽 自我挑戰組 DAY 28
SRE 照書養 系列 第 28

技術 Day 28 - SRE 照書養:基礎建設服務的風險容忍度(下)

安安週四大家好!沒想到不知不覺就來到第二十八天,有小夥伴問我說會不會繼續把書讀完,是會的喔!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧...

鐵人賽 自我挑戰組 DAY 27
SRE 照書養 系列 第 27

技術 Day 27 - SRE 照書養:基礎建設服務的風險容忍度(上)

安安大家好!從連假回來的第一天總是特別疲倦啊啊啊!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧! 基礎設施服務的構建和維護需求,與前兩天...

鐵人賽 自我挑戰組 DAY 26
SRE 照書養 系列 第 26

技術 Day 26 - SRE 照書養:消費者服務的風險容忍度(下)

安安大家好,今天是國慶連假最後一天!不知道大家連假過得怎麼樣呀?昨天看了消費者服務的風險容忍度的因素:「可靠性目標」跟「故障的類型」!接著來看「成本」和「其他服...

鐵人賽 自我挑戰組 DAY 25
SRE 照書養 系列 第 25

技術 Day 25 - SRE 照書養:消費者服務的風險容忍度(上)

國慶連假第三天!今天來看服務的風險容忍度,稍微翻了這章節,這裡書裡談的服務類型分成兩種:「消費者服務」跟「基礎建設服務」!這裡是今天讀的原文出處:Embraci...

鐵人賽 自我挑戰組 DAY 24
SRE 照書養 系列 第 24

技術 Day 24 - SRE 照書養:如何計算服務的風險?

安安!國慶連假第二天!今天進到第三章囉!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧! 書中提到 Google 將優化系統的目標化為客觀...

鐵人賽 自我挑戰組 DAY 23
SRE 照書養 系列 第 23

技術 Day 23 - SRE 照書養:管理風險

安安!祝大家國慶連假愉快!今天進到第三章囉!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧! 書中提到不可靠的系統可能會迅速侵蝕使用者的信...

鐵人賽 自我挑戰組 DAY 22
SRE 照書養 系列 第 22

技術 Day 22 - SRE 照書養:從莎士比亞搜索看 Google 內部服務交互(下)

安安!大家週五好!明天要放國慶連假了!今天來看什麼是莎士比亞搜索內的 Job 跟 Data!這裡是今天讀的原文出處:The Production Environ...

鐵人賽 自我挑戰組 DAY 21
SRE 照書養 系列 第 21

技術 Day 21 - SRE 照書養:從莎士比亞搜索看 Google 內部服務交互(中)

安安!大家週四好!颱風天祝大家平平安安!今天來看什麼是莎士比亞搜索內的用戶請求過程!這裡是今天讀的原文出處:The Production Environment...

鐵人賽 自我挑戰組 DAY 20
SRE 照書養 系列 第 20

技術 Day 20 - SRE 照書養:從莎士比亞搜索看 Google 內部服務交互(上)

安安!大家週三好!今天來看什麼是莎士比亞搜索!這裡是今天讀的原文出處:The Production Environment at Google, from th...

鐵人賽 自我挑戰組 DAY 19
SRE 照書養 系列 第 19

技術 Day 19 - SRE 照書養:Google 的開發環境

安安!大家週二好!今天來看 Google 的開發環境!這裡是今天讀的原文出處:The Production Environment at Google, fro...

鐵人賽 DevOps DAY 30

技術 後記:技術、心態、SRE 做為一種人生態度

前言 前經與一位 SRE 的前輩聊天的時候,問他 SRE 到底要做的工作應該算是什麼?他半開玩笑地回答:「SRE 做的工作就是人生的工作吧?」現在想想,他也許真...

鐵人賽 自我挑戰組 DAY 18
SRE 照書養 系列 第 18

技術 Day 18 - SRE 照書養:Borg 的軟體基礎設施

安安!大家週一好!今天來看 Borg 的軟體基礎設施!這裡是今天讀的原文出處:The Production Environment at Google, fro...

鐵人賽 DevOps DAY 29

技術 重要事件4:OpsWorks EOL 與容器化,當國本被動搖時

前言 OpsWorks 被 AWS 宣告要 EOL,跟據筆者主管非常精闢的描述,就是「動搖國本」。因為敝公司幾個最大最古老的專案,也就是採用 EC2 解決方案的...

鐵人賽 自我挑戰組 DAY 17
SRE 照書養 系列 第 17

技術 Day 17 - SRE 照書養:Borg 的其他軟體系統

今天是中秋連假的最後一天!收拾心情明天準備上班拉!這裡是今天讀的原文出處:The Production Environment at Google, from...

鐵人賽 DevOps DAY 28

技術 重要事件3:資料庫搬家,在文件上灑一點辛香料

前言 如同之前的所有系列一樣,重要事件也有大事件和小事件。而這篇文章將分享一篇小事件,也就是資料庫搬家的工作。 背景 背景故事是,我們的資料庫使用了某一個即將要...

鐵人賽 自我挑戰組 DAY 16
SRE 照書養 系列 第 16

技術 Day 16 - SRE 照書養:Borg 的網路

今天是中秋連假的第二天,大家烤肉吃得怎麼樣呀?這裡是今天讀的原文出處:The Production Environment at Google, from th...

鐵人賽 DevOps DAY 27

技術 重要事件2:CDN Migration,技術挑戰與心得分享

前言 在上一篇文章中介紹了目前 CDN 搬遷的過程,以及在過程中遇到的問題與挑戰。這篇文章會針對技術上學習到的東西來再與各位進行下一步的分享。 主文 Multi...

鐵人賽 自我挑戰組 DAY 15
SRE 照書養 系列 第 15

技術 Day 15 - SRE 照書養:Borg 存儲系統

不知不覺賽程就一半了!這裡是今天讀的原文出處:The Production Environment at Google, from the Viewpoint...

鐵人賽 DevOps DAY 26

技術 重要事件2:CDN Migration,簡介與挑戰

前言 第二個重要事件,來談談我們評估更換 CDN 廠商的事件。相較於 ISO 27001 ,這個事件應該可以算是真正的單一事件了,因為評估以及實際搬家完就相當於...

鐵人賽 自我挑戰組 DAY 14
SRE 照書養 系列 第 14

技術 Day 14 - SRE 照書養:Borg 淺聊(下)

是中秋連假!!!(吶喊)昨天聊了 Jobs 是怎麼在 Borg 系統中被調度的,今天繼續來研讀一下 Task 的生命週期,這是 Borg 有關的文章:Large...

鐵人賽 DevOps DAY 25

技術 重要事件1:ISO 27001,其它定期事務、挑戰與心態

前言 上一篇文章介紹了 ISO 27001 這個工作本身, 以及透過一個實際的改善項目來讓大家了解整個過程。 每次稽核過後,都會出現一連串的改善事項,在要求的時...

鐵人賽 自我挑戰組 DAY 13
SRE 照書養 系列 第 13

技術 Day 13 - SRE 照書養:Borg 淺聊(中)

嗨!週三大家好!原本今天要繼續讀書的,不過誠如昨天所述,我剛好搜尋到一篇跟 Borg 有關的文章:Large-scale cluster management...

鐵人賽 DevOps DAY 24

技術 重要事件1:ISO 27001,簡介與改善項目

前言 SRE 日常的事務是保持系統的穩定,因此會有許多日常維運,以及處理重要事件時相關的工作。前面提到的工作大多沒有結束的日期,是屬於會重複發生或要持續改進的工...

鐵人賽 自我挑戰組 DAY 12
SRE 照書養 系列 第 12

技術 Day 12 - SRE 照書養:Borg 淺聊(上)

嗨!週二大家好!今天是 DevOpsDay 的第二天,滿滿兩天的議程收穫豐富!回家後繼續看書寫文章拉!這裡是今天讀的原文出處:The Production En...

鐵人賽 DevOps DAY 23

技術 警報的改善,滾動式的進步永動機

前言 在經過一連串的嚴重 P0 事件簿後,不知道讀者對處理相關事件是否更有概念了呢?在「系統警報概論」這篇文中曾有初步提到過,因為 P0 事件的當下資訊非常多且...

鐵人賽 自我挑戰組 DAY 11
SRE 照書養 系列 第 11

技術 Day 11 - SRE 照書養:Google 數據中心

嗨!週一大家好!今天請公假去 DevOpsDay 進修!回來再繼續看書寫文章拉!第二章先從 Google 數據中心的設備開始說起,這裡是今天讀的原文出處:The...

鐵人賽 DevOps DAY 22

技術 重大P0事件簿4: API 異常連線攀升,成因與後續處置

前言 上一篇介紹了 API 伺服器異常連線攀升的事件中,一些初步的調查和分析。同時也否定了最初的猜測,但也得到了另一個切入點。 在這一篇中,我們將從個切入點出現...