iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
DevOps

一窺SRE初心者的生活:讓警報為您的人生畫下如交響樂一般的新篇章 系列

參賽者本人入職網站可靠性工程師大約一年,而且在那之前完全沒有相關的經驗。
想藉由分享這一年來的心路歷程,讓其他對這個職位感興趣的工程師能夠對該工作一探究竟,在彼此交流的同時,也可以更加完善這個職位的整體文化。

鐵人鍊成 | 共 31 篇文章 | 55 人訂閱 訂閱系列文 RSS系列文
DAY 1

達標好文 前言 & 基本監控系統

(寫在獲獎後) 逐家好,Ta̍k-ke hó。 原本是抱持著單純參賽與記錄工作經驗的心情來撰寫文章的,沒想到非常幸運地獲得評審的青睞,能獲得這次的冠軍。誠如原文...

2023-09-04 ‧ 由 SeanIa̍p 分享
DAY 2

系統警報概論

在上一篇文章中介紹了基本的監控系統,並簡單帶到在發生警報時值班工程師的必須要做到的行動。這篇文章主要會介紹比較詳細的警報SOP,以及設置警報時的各種考量。 警報...

2023-09-05 ‧ 由 SeanIa̍p 分享
DAY 3

特別監控系統1: 第三方服務監控,第一波調整

之前的文章有提到了基本的監控系統,接下來會是介紹為了專案各自的狀況而建立的特別監控系統。 背景故事 首先是監控客戶系統的部分,背景故事其實相當單純。我們的系統在...

2023-09-06 ‧ 由 SeanIa̍p 分享
DAY 4

特別監控系統1: 第三方服務監控,第二波調整

背景 前一篇文章提到了第一波針對 APIGW 的監控修正,但因為最後發現的各種問題,導致我們要進行第二波針對這個監控的修正。 主要是,在某一次緊急的 P0 事件...

2023-09-07 ‧ 由 SeanIa̍p 分享
DAY 5

特別監控系統2: 資料庫異常登入監控

前言 上篇文章已經介紹了一個客製化的特別監控系統,這篇文章則會是另外一個,希望能夠藉由這2個系統,讓大家可能理解SRE是為了什麼而做監控。 這個監控系統主要是為...

2023-09-08 ‧ 由 SeanIa̍p 分享
DAY 6

日常維運1: 棒球賽,事件本身

前言 之前的文章中提到了各種監控系統,但警報不會天天響, P0 事件也不會天天發生,因此筆者日常的工作,大多反而是與維運相關的事務。因此,接下來將進入日常維運系...

2023-09-09 ‧ 由 SeanIa̍p 分享
DAY 7

日常維運1: 棒球賽,改善策略與監控

前言 上一篇文章有提到棒球賽的事件本身,這篇開始,要提到調查的過程以及改善的策略。 雖然事件的主因看起來是很明顯的,也就是短時間內因為活動而大量湧入的使用者,對...

2023-09-10 ‧ 由 SeanIa̍p 分享
DAY 8

日常維運1: 棒球賽,額外的挑戰

前言 上一篇文章中提到了關於棒球賽的改善策略以及針對改善策略的監控結果。這篇文章主要想分享的是在整個事件中額外觀察到的一些值得分享的兩件事情。 主文 負載平衡的...

2023-09-11 ‧ 由 SeanIa̍p 分享
DAY 9

日常維運2: 維護模式,問題本身

前言 之前提到的日常維運工作,主要源自於某個重大的 P0 事件。雖然我們一般會有大型維運工作都是因為某些不能忽視的 P0 事件,但也不全然是如此,比如接下來要分...

2023-09-12 ‧ 由 SeanIa̍p 分享
DAY 10

日常維運2: 維護模式,改善策略與結果

新工具簡介 在上一篇文章中分享了舊的維護模式工具的運作機制,以及該工具遇到的問題。 這篇文章將分享筆者重新設計後的維護模式工具,請見下圖: 上圖呈現了同一套架...

2023-09-13 ‧ 由 SeanIa̍p 分享