前言 前經與一位 SRE 的前輩聊天的時候,問他 SRE 到底要做的工作應該算是什麼?他半開玩笑地回答:「SRE 做的工作就是人生的工作吧?」現在想想,他也許真...
安安!大家週一好!今天來看 Borg 的軟體基礎設施!這裡是今天讀的原文出處:The Production Environment at Google, fro...
前言 OpsWorks 被 AWS 宣告要 EOL,跟據筆者主管非常精闢的描述,就是「動搖國本」。因為敝公司幾個最大最古老的專案,也就是採用 EC2 解決方案的...
今天是中秋連假的最後一天!收拾心情明天準備上班拉!這裡是今天讀的原文出處:The Production Environment at Google, from...
前言 如同之前的所有系列一樣,重要事件也有大事件和小事件。而這篇文章將分享一篇小事件,也就是資料庫搬家的工作。 背景 背景故事是,我們的資料庫使用了某一個即將要...
今天是中秋連假的第二天,大家烤肉吃得怎麼樣呀?這裡是今天讀的原文出處:The Production Environment at Google, from th...
前言 在上一篇文章中介紹了目前 CDN 搬遷的過程,以及在過程中遇到的問題與挑戰。這篇文章會針對技術上學習到的東西來再與各位進行下一步的分享。 主文 Multi...
不知不覺賽程就一半了!這裡是今天讀的原文出處:The Production Environment at Google, from the Viewpoint...
前言 第二個重要事件,來談談我們評估更換 CDN 廠商的事件。相較於 ISO 27001 ,這個事件應該可以算是真正的單一事件了,因為評估以及實際搬家完就相當於...
是中秋連假!!!(吶喊)昨天聊了 Jobs 是怎麼在 Borg 系統中被調度的,今天繼續來研讀一下 Task 的生命週期,這是 Borg 有關的文章:Large...
前言 上一篇文章介紹了 ISO 27001 這個工作本身, 以及透過一個實際的改善項目來讓大家了解整個過程。 每次稽核過後,都會出現一連串的改善事項,在要求的時...
嗨!週三大家好!原本今天要繼續讀書的,不過誠如昨天所述,我剛好搜尋到一篇跟 Borg 有關的文章:Large-scale cluster management...
前言 SRE 日常的事務是保持系統的穩定,因此會有許多日常維運,以及處理重要事件時相關的工作。前面提到的工作大多沒有結束的日期,是屬於會重複發生或要持續改進的工...
嗨!週二大家好!今天是 DevOpsDay 的第二天,滿滿兩天的議程收穫豐富!回家後繼續看書寫文章拉!這裡是今天讀的原文出處:The Production En...
前言 在經過一連串的嚴重 P0 事件簿後,不知道讀者對處理相關事件是否更有概念了呢?在「系統警報概論」這篇文中曾有初步提到過,因為 P0 事件的當下資訊非常多且...
嗨!週一大家好!今天請公假去 DevOpsDay 進修!回來再繼續看書寫文章拉!第二章先從 Google 數據中心的設備開始說起,這裡是今天讀的原文出處:The...
前言 上一篇介紹了 API 伺服器異常連線攀升的事件中,一些初步的調查和分析。同時也否定了最初的猜測,但也得到了另一個切入點。 在這一篇中,我們將從個切入點出現...
嗨嗨大家好!今天我們終於要進入 SRE 方法論的最後一條:效率與性能,這裡是今天讀的原文出處:Introduction,那我們開始囉! 書中提到: 一個服務的...
前言 前面介紹的 P0 事件中,經過調查後,大部分的成因來自於公司外部,因此相對沒有什麼下手的空間。當然,第二個事件中還有 memory leak 的問題,而該...
嗨嗨大家好!這週是漫長的一週!今天我們要繼續 SRE 方法論的第六條:資源部署,這裡是今天讀的原文出處:Introduction,那我們開始囉! 書中提到資源部...
前言 這個 P0 事件是在筆者參賽鐵人賽時發生的,而發生事件的當下,筆者正準備想要趕一下鐵人賽進度^^ 事件經過 警報與初步處置 這個事件本身與上一篇文章中提到...
前言 前面已經介紹過了一個非常有趣的 P0 事件,這次則要介紹另一個同樣非常值得分享的事件。而且該事件的根本成因一直到現在都沒有完全解決,每隔一段時間就有可能再...
終於週五了!!!今天我們要繼續 SRE 方法論的第五條:需求預測和容量規劃,這裡是今天讀的原文出處:Introduction,那我們開始囉! 需求預測和容量規...
大家週四好,今天我們要繼續 SRE 方法論的第五條:變更管理,這裡是今天讀的原文出處:Introduction,往後偷翻幾頁發現這週應該可以把第一章完成(歡呼!...
前言 上一篇談到了這次 P0 事件中的警報過程,以及具體的事件成因。在這一篇中,就要介紹接下來的一連串處理流程,以及在整個流程中筆者自己有學到,也認為值得分享的...
大家週三好,嗚嗚這週要上六天班好漫長,今天我們要繼續 SRE 方法論的第四條:緊急事件處理,這裡是今天讀的原文出處:Introduction,話不多說,我們開始...
前言 P0 事件並不常發生,但只要一發生就非常刺激,說起鬼故事來一個比一個還要精彩。因此,這類型的故事講起來常常都能津津樂道一番。不過,如同戰爭中真正交火的時間...
週二安安,今天進到了 SRE 方法論的第三條:監控系統,這裡是今天讀的原文出處:Introduction,話不多說,我們開始囉! 書中提到一個監控系統裡會有三類...
週一大家好!今天繼續來閱讀第二條 SRE 方法論:在保障服務 SLO 的前提下最大化迭代速度,這裡是今天讀的原文出處:Introduction,話不多說,我們開...
前言 在日常維運系列中可以看到非常多的自動化小工具,無論是在〈維護模式〉提到為了快速進出維護模式和調整白名單而開發的小工具,還是上一篇單純為了省時間而開發的小工...