參賽者本人入職網站可靠性工程師大約一年,而且在那之前完全沒有相關的經驗。
想藉由分享這一年來的心路歷程,讓其他對這個職位感興趣的工程師能夠對該工作一探究竟,在彼此交流的同時,也可以更加完善這個職位的整體文化。
前言 前一篇文章提到了維護模式工具的改善結果,這篇文章主要分享的則會是 在整個過程中遇到的困難與挑戰,以及寫文章的當下,預期未來要改善方向。 困難 困難有大有小...
前言 介紹了兩個日常維運的系列之後,接下來想分享給各位的,是與部署工具相關的維運。SRE 和 DevOps 有時候相當難區分的地方就在於,維運本身有許多工作難以...
前言 前一篇提到了 userdata 中透過 AWS CLI 來下達註冊 OpsWorks 的指令,會有失敗的可能性。這篇主要會來分享實驗過程與解決方式。 主文...
前言 前面介紹完了註冊 OpsWorks 失敗的解決方案。這篇文章想分享一些在處理過程中值得分享的事情。 Userdata 的挑戰 shell script 第...
前言 之前的文章中帶到了 3 個大型的維運工作,接下來緩口氣,來分享一些比較單純的日常維運工作,帶給各位更日常的感受,也同時為接下來即將進入的 P0 事件系列暖...
前言 在日常維運系列中可以看到非常多的自動化小工具,無論是在〈維護模式〉提到為了快速進出維護模式和調整白名單而開發的小工具,還是上一篇單純為了省時間而開發的小工...
前言 P0 事件並不常發生,但只要一發生就非常刺激,說起鬼故事來一個比一個還要精彩。因此,這類型的故事講起來常常都能津津樂道一番。不過,如同戰爭中真正交火的時間...
前言 上一篇談到了這次 P0 事件中的警報過程,以及具體的事件成因。在這一篇中,就要介紹接下來的一連串處理流程,以及在整個流程中筆者自己有學到,也認為值得分享的...
前言 前面已經介紹過了一個非常有趣的 P0 事件,這次則要介紹另一個同樣非常值得分享的事件。而且該事件的根本成因一直到現在都沒有完全解決,每隔一段時間就有可能再...
前言 這個 P0 事件是在筆者參賽鐵人賽時發生的,而發生事件的當下,筆者正準備想要趕一下鐵人賽進度^^ 事件經過 警報與初步處置 這個事件本身與上一篇文章中提到...