參賽者本人入職網站可靠性工程師大約一年,而且在那之前完全沒有相關的經驗。
想藉由分享這一年來的心路歷程,讓其他對這個職位感興趣的工程師能夠對該工作一探究竟,在彼此交流的同時,也可以更加完善這個職位的整體文化。
前言 前面介紹的 P0 事件中,經過調查後,大部分的成因來自於公司外部,因此相對沒有什麼下手的空間。當然,第二個事件中還有 memory leak 的問題,而該...
前言 上一篇介紹了 API 伺服器異常連線攀升的事件中,一些初步的調查和分析。同時也否定了最初的猜測,但也得到了另一個切入點。 在這一篇中,我們將從個切入點出現...
前言 在經過一連串的嚴重 P0 事件簿後,不知道讀者對處理相關事件是否更有概念了呢?在「系統警報概論」這篇文中曾有初步提到過,因為 P0 事件的當下資訊非常多且...
前言 SRE 日常的事務是保持系統的穩定,因此會有許多日常維運,以及處理重要事件時相關的工作。前面提到的工作大多沒有結束的日期,是屬於會重複發生或要持續改進的工...
前言 上一篇文章介紹了 ISO 27001 這個工作本身, 以及透過一個實際的改善項目來讓大家了解整個過程。 每次稽核過後,都會出現一連串的改善事項,在要求的時...
前言 第二個重要事件,來談談我們評估更換 CDN 廠商的事件。相較於 ISO 27001 ,這個事件應該可以算是真正的單一事件了,因為評估以及實際搬家完就相當於...
前言 在上一篇文章中介紹了目前 CDN 搬遷的過程,以及在過程中遇到的問題與挑戰。這篇文章會針對技術上學習到的東西來再與各位進行下一步的分享。 主文 Multi...
前言 如同之前的所有系列一樣,重要事件也有大事件和小事件。而這篇文章將分享一篇小事件,也就是資料庫搬家的工作。 背景 背景故事是,我們的資料庫使用了某一個即將要...
前言 OpsWorks 被 AWS 宣告要 EOL,跟據筆者主管非常精闢的描述,就是「動搖國本」。因為敝公司幾個最大最古老的專案,也就是採用 EC2 解決方案的...
前言 前經與一位 SRE 的前輩聊天的時候,問他 SRE 到底要做的工作應該算是什麼?他半開玩笑地回答:「SRE 做的工作就是人生的工作吧?」現在想想,他也許真...