iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
DevOps

一窺SRE初心者的生活:讓警報為您的人生畫下如交響樂一般的新篇章 系列

參賽者本人入職網站可靠性工程師大約一年,而且在那之前完全沒有相關的經驗。
想藉由分享這一年來的心路歷程,讓其他對這個職位感興趣的工程師能夠對該工作一探究竟,在彼此交流的同時,也可以更加完善這個職位的整體文化。

鐵人鍊成 | 共 31 篇文章 | 55 人訂閱 訂閱系列文 RSS系列文
DAY 21

重大P0事件簿4: API 異常連線攀升,事件與初步分析

前言 前面介紹的 P0 事件中,經過調查後,大部分的成因來自於公司外部,因此相對沒有什麼下手的空間。當然,第二個事件中還有 memory leak 的問題,而該...

2023-09-24 ‧ 由 SeanIa̍p 分享
DAY 22

重大P0事件簿4: API 異常連線攀升,成因與後續處置

前言 上一篇介紹了 API 伺服器異常連線攀升的事件中,一些初步的調查和分析。同時也否定了最初的猜測,但也得到了另一個切入點。 在這一篇中,我們將從個切入點出現...

2023-09-25 ‧ 由 SeanIa̍p 分享
DAY 23

警報的改善,滾動式的進步永動機

前言 在經過一連串的嚴重 P0 事件簿後,不知道讀者對處理相關事件是否更有概念了呢?在「系統警報概論」這篇文中曾有初步提到過,因為 P0 事件的當下資訊非常多且...

2023-09-26 ‧ 由 SeanIa̍p 分享
DAY 24

重要事件1:ISO 27001,簡介與改善項目

前言 SRE 日常的事務是保持系統的穩定,因此會有許多日常維運,以及處理重要事件時相關的工作。前面提到的工作大多沒有結束的日期,是屬於會重複發生或要持續改進的工...

2023-09-27 ‧ 由 SeanIa̍p 分享
DAY 25

重要事件1:ISO 27001,其它定期事務、挑戰與心態

前言 上一篇文章介紹了 ISO 27001 這個工作本身, 以及透過一個實際的改善項目來讓大家了解整個過程。 每次稽核過後,都會出現一連串的改善事項,在要求的時...

2023-09-28 ‧ 由 SeanIa̍p 分享
DAY 26

重要事件2:CDN Migration,簡介與挑戰

前言 第二個重要事件,來談談我們評估更換 CDN 廠商的事件。相較於 ISO 27001 ,這個事件應該可以算是真正的單一事件了,因為評估以及實際搬家完就相當於...

2023-09-29 ‧ 由 SeanIa̍p 分享
DAY 27

重要事件2:CDN Migration,技術挑戰與心得分享

前言 在上一篇文章中介紹了目前 CDN 搬遷的過程,以及在過程中遇到的問題與挑戰。這篇文章會針對技術上學習到的東西來再與各位進行下一步的分享。 主文 Multi...

2023-09-30 ‧ 由 SeanIa̍p 分享
DAY 28

重要事件3:資料庫搬家,在文件上灑一點辛香料

前言 如同之前的所有系列一樣,重要事件也有大事件和小事件。而這篇文章將分享一篇小事件,也就是資料庫搬家的工作。 背景 背景故事是,我們的資料庫使用了某一個即將要...

2023-10-01 ‧ 由 SeanIa̍p 分享
DAY 29

重要事件4:OpsWorks EOL 與容器化,當國本被動搖時

前言 OpsWorks 被 AWS 宣告要 EOL,跟據筆者主管非常精闢的描述,就是「動搖國本」。因為敝公司幾個最大最古老的專案,也就是採用 EC2 解決方案的...

2023-10-02 ‧ 由 SeanIa̍p 分享
DAY 30

後記:技術、心態、SRE 做為一種人生態度

前言 前經與一位 SRE 的前輩聊天的時候,問他 SRE 到底要做的工作應該算是什麼?他半開玩笑地回答:「SRE 做的工作就是人生的工作吧?」現在想想,他也許真...

2023-10-03 ‧ 由 SeanIa̍p 分享