iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
DevOps

一窺SRE初心者的生活:讓警報為您的人生畫下如交響樂一般的新篇章 系列

參賽者本人入職網站可靠性工程師大約一年,而且在那之前完全沒有相關的經驗。
想藉由分享這一年來的心路歷程,讓其他對這個職位感興趣的工程師能夠對該工作一探究竟,在彼此交流的同時,也可以更加完善這個職位的整體文化。

鐵人鍊成 | 共 31 篇文章 | 55 人訂閱 訂閱系列文 RSS系列文
DAY 11

日常維運2: 維護模式,困難、挑戰、未來

前言 前一篇文章提到了維護模式工具的改善結果,這篇文章主要分享的則會是 在整個過程中遇到的困難與挑戰,以及寫文章的當下,預期未來要改善方向。 困難 困難有大有小...

2023-09-14 ‧ 由 SeanIa̍p 分享
DAY 12

日常維運3: 註冊OpsWorks失敗,事件與架構

前言 介紹了兩個日常維運的系列之後,接下來想分享給各位的,是與部署工具相關的維運。SRE 和 DevOps 有時候相當難區分的地方就在於,維運本身有許多工作難以...

2023-09-15 ‧ 由 SeanIa̍p 分享
DAY 13

日常維運3: 註冊OpsWorks失敗,UserData與LifeCycle Hooks

前言 前一篇提到了 userdata 中透過 AWS CLI 來下達註冊 OpsWorks 的指令,會有失敗的可能性。這篇主要會來分享實驗過程與解決方式。 主文...

2023-09-16 ‧ 由 SeanIa̍p 分享
DAY 14

日常維運3: 註冊 OpsWorks 失敗,挑戰與心得

前言 前面介紹完了註冊 OpsWorks 失敗的解決方案。這篇文章想分享一些在處理過程中值得分享的事情。 Userdata 的挑戰 shell script 第...

2023-09-17 ‧ 由 SeanIa̍p 分享
DAY 15

日常維運4:CDN 報表自動生產 & IAM user 定期盤點

前言 之前的文章中帶到了 3 個大型的維運工作,接下來緩口氣,來分享一些比較單純的日常維運工作,帶給各位更日常的感受,也同時為接下來即將進入的 P0 事件系列暖...

2023-09-18 ‧ 由 SeanIa̍p 分享
DAY 16

日常維運5:自動化工具的維護,兼職 DevOps 的挑戰

前言 在日常維運系列中可以看到非常多的自動化小工具,無論是在〈維護模式〉提到為了快速進出維護模式和調整白名單而開發的小工具,還是上一篇單純為了省時間而開發的小工...

2023-09-19 ‧ 由 SeanIa̍p 分享
DAY 17

重大P0事件簿1: 倒站又不倒站,警報過程與問題釐清

前言 P0 事件並不常發生,但只要一發生就非常刺激,說起鬼故事來一個比一個還要精彩。因此,這類型的故事講起來常常都能津津樂道一番。不過,如同戰爭中真正交火的時間...

2023-09-20 ‧ 由 SeanIa̍p 分享
DAY 18

重大P0事件簿1: 倒站又不倒站,處理流程與技術心得

前言 上一篇談到了這次 P0 事件中的警報過程,以及具體的事件成因。在這一篇中,就要介紹接下來的一連串處理流程,以及在整個流程中筆者自己有學到,也認為值得分享的...

2023-09-21 ‧ 由 SeanIa̍p 分享
DAY 19

重大P0事件簿2: 來自 Ubuntu 的挑戰,與 Memory Leak 共舞

前言 前面已經介紹過了一個非常有趣的 P0 事件,這次則要介紹另一個同樣非常值得分享的事件。而且該事件的根本成因一直到現在都沒有完全解決,每隔一段時間就有可能再...

2023-09-22 ‧ 由 SeanIa̍p 分享
DAY 20

重大P0事件簿3: 來自 TD-Agent 的挑戰,資源調配的難題

前言 這個 P0 事件是在筆者參賽鐵人賽時發生的,而發生事件的當下,筆者正準備想要趕一下鐵人賽進度^^ 事件經過 警報與初步處置 這個事件本身與上一篇文章中提到...

2023-09-23 ‧ 由 SeanIa̍p 分享