iT邦幫忙

sre相關文章
共有 87 則文章
鐵人賽 DevOps DAY 7
Dev's Ops 啟程 系列 第 7

技術 [Day 7] SRE - 故障排除小技巧

故障排除小技巧 通常故障排除的流程如下圖 常見的陷阱 誤解故障的現象,扭曲現象的含義,只會浪費時間追問題。 簡單來說就是沒有按照SOP流程執行,漏掉某些步驟以...

鐵人賽 DevOps DAY 6

技術 日常維運1: 棒球賽,事件本身

前言 之前的文章中提到了各種監控系統,但警報不會天天響, P0 事件也不會天天發生,因此筆者日常的工作,大多反而是與維運相關的事務。因此,接下來將進入日常維運系...

鐵人賽 DevOps DAY 7

技術 日常維運1: 棒球賽,改善策略與監控

前言 上一篇文章有提到棒球賽的事件本身,這篇開始,要提到調查的過程以及改善的策略。 雖然事件的主因看起來是很明顯的,也就是短時間內因為活動而大量湧入的使用者,對...

鐵人賽 DevOps DAY 8

技術 日常維運1: 棒球賽,額外的挑戰

前言 上一篇文章中提到了關於棒球賽的改善策略以及針對改善策略的監控結果。這篇文章主要想分享的是在整個事件中額外觀察到的一些值得分享的兩件事情。 主文 負載平衡的...

鐵人賽 DevOps DAY 30

技術 後記:技術、心態、SRE 做為一種人生態度

前言 前經與一位 SRE 的前輩聊天的時候,問他 SRE 到底要做的工作應該算是什麼?他半開玩笑地回答:「SRE 做的工作就是人生的工作吧?」現在想想,他也許真...

鐵人賽 DevOps DAY 11

技術 日常維運2: 維護模式,困難、挑戰、未來

前言 前一篇文章提到了維護模式工具的改善結果,這篇文章主要分享的則會是 在整個過程中遇到的困難與挑戰,以及寫文章的當下,預期未來要改善方向。 困難 困難有大有小...

鐵人賽 DevOps DAY 10

技術 日常維運2: 維護模式,改善策略與結果

新工具簡介 在上一篇文章中分享了舊的維護模式工具的運作機制,以及該工具遇到的問題。 這篇文章將分享筆者重新設計後的維護模式工具,請見下圖: 上圖呈現了同一套架...

鐵人賽 DevOps DAY 9

技術 日常維運2: 維護模式,問題本身

前言 之前提到的日常維運工作,主要源自於某個重大的 P0 事件。雖然我們一般會有大型維運工作都是因為某些不能忽視的 P0 事件,但也不全然是如此,比如接下來要分...

鐵人賽 DevOps

技術 番外篇:棒球賽後續,來自ElastiCache的挑戰

前言 在日常維運系列文章中,曾經有提到過一個關於棒球賽的大流量維運工作,當時的進度停留在透過資料庫加開來因應,也分享了一些加開過程中觀察到的有趣現象,並提到未來...

鐵人賽 DevOps DAY 17

技術 重大P0事件簿1: 倒站又不倒站,警報過程與問題釐清

前言 P0 事件並不常發生,但只要一發生就非常刺激,說起鬼故事來一個比一個還要精彩。因此,這類型的故事講起來常常都能津津樂道一番。不過,如同戰爭中真正交火的時間...

鐵人賽 DevOps DAY 12

技術 日常維運3: 註冊OpsWorks失敗,事件與架構

前言 介紹了兩個日常維運的系列之後,接下來想分享給各位的,是與部署工具相關的維運。SRE 和 DevOps 有時候相當難區分的地方就在於,維運本身有許多工作難以...

鐵人賽 DevOps DAY 16

技術 日常維運5:自動化工具的維護,兼職 DevOps 的挑戰

前言 在日常維運系列中可以看到非常多的自動化小工具,無論是在〈維護模式〉提到為了快速進出維護模式和調整白名單而開發的小工具,還是上一篇單純為了省時間而開發的小工...

鐵人賽 自我挑戰組 DAY 2
SRE 照書養 系列 第 2

技術 Day 2 - SRE 照書養:Dev & Ops

沒想到一開賽就遇到週末,週末最適合配著書,喝個下午茶拉!那麼今天先來了解一下傳統開發部門跟維運部門,以及 SRE 的前世今生吧!這裡是今天讀的原文出處:Intr...

鐵人賽 DevOps DAY 19

技術 重大P0事件簿2: 來自 Ubuntu 的挑戰,與 Memory Leak 共舞

前言 前面已經介紹過了一個非常有趣的 P0 事件,這次則要介紹另一個同樣非常值得分享的事件。而且該事件的根本成因一直到現在都沒有完全解決,每隔一段時間就有可能再...

鐵人賽 自我挑戰組 DAY 1
SRE 照書養 系列 第 1

技術 Day 1 - SRE 照書養:一切地開始是那麼突然

距離上次參加鐵人賽竟然已經過了三年!上次是寫跟專案管理有關的內容,這次竟然要挑戰 SRE 的系列文章?!「小姐,你是不是也太跳 Tone」 XD,沒錯!我就是一...

鐵人賽 DevOps DAY 20

技術 重大P0事件簿3: 來自 TD-Agent 的挑戰,資源調配的難題

前言 這個 P0 事件是在筆者參賽鐵人賽時發生的,而發生事件的當下,筆者正準備想要趕一下鐵人賽進度^^ 事件經過 警報與初步處置 這個事件本身與上一篇文章中提到...

鐵人賽 DevOps DAY 22

技術 重大P0事件簿4: API 異常連線攀升,成因與後續處置

前言 上一篇介紹了 API 伺服器異常連線攀升的事件中,一些初步的調查和分析。同時也否定了最初的猜測,但也得到了另一個切入點。 在這一篇中,我們將從個切入點出現...

鐵人賽 DevOps DAY 24

技術 重要事件1:ISO 27001,簡介與改善項目

前言 SRE 日常的事務是保持系統的穩定,因此會有許多日常維運,以及處理重要事件時相關的工作。前面提到的工作大多沒有結束的日期,是屬於會重複發生或要持續改進的工...

鐵人賽 DevOps DAY 18

技術 重大P0事件簿1: 倒站又不倒站,處理流程與技術心得

前言 上一篇談到了這次 P0 事件中的警報過程,以及具體的事件成因。在這一篇中,就要介紹接下來的一連串處理流程,以及在整個流程中筆者自己有學到,也認為值得分享的...

鐵人賽 DevOps DAY 15

技術 日常維運4:CDN 報表自動生產 & IAM user 定期盤點

前言 之前的文章中帶到了 3 個大型的維運工作,接下來緩口氣,來分享一些比較單純的日常維運工作,帶給各位更日常的感受,也同時為接下來即將進入的 P0 事件系列暖...

鐵人賽 DevOps DAY 13

技術 日常維運3: 註冊OpsWorks失敗,UserData與LifeCycle Hooks

前言 前一篇提到了 userdata 中透過 AWS CLI 來下達註冊 OpsWorks 的指令,會有失敗的可能性。這篇主要會來分享實驗過程與解決方式。 主文...

鐵人賽 DevOps DAY 21

技術 重大P0事件簿4: API 異常連線攀升,事件與初步分析

前言 前面介紹的 P0 事件中,經過調查後,大部分的成因來自於公司外部,因此相對沒有什麼下手的空間。當然,第二個事件中還有 memory leak 的問題,而該...

鐵人賽 DevOps DAY 14

技術 日常維運3: 註冊 OpsWorks 失敗,挑戰與心得

前言 前面介紹完了註冊 OpsWorks 失敗的解決方案。這篇文章想分享一些在處理過程中值得分享的事情。 Userdata 的挑戰 shell script 第...

鐵人賽 DevOps DAY 29

技術 重要事件4:OpsWorks EOL 與容器化,當國本被動搖時

前言 OpsWorks 被 AWS 宣告要 EOL,跟據筆者主管非常精闢的描述,就是「動搖國本」。因為敝公司幾個最大最古老的專案,也就是採用 EC2 解決方案的...

鐵人賽 自我挑戰組 DAY 22
SRE 照書養 系列 第 22

技術 Day 22 - SRE 照書養:從莎士比亞搜索看 Google 內部服務交互(下)

安安!大家週五好!明天要放國慶連假了!今天來看什麼是莎士比亞搜索內的 Job 跟 Data!這裡是今天讀的原文出處:The Production Environ...

鐵人賽 DevOps DAY 26

技術 重要事件2:CDN Migration,簡介與挑戰

前言 第二個重要事件,來談談我們評估更換 CDN 廠商的事件。相較於 ISO 27001 ,這個事件應該可以算是真正的單一事件了,因為評估以及實際搬家完就相當於...

鐵人賽 DevOps DAY 27

技術 重要事件2:CDN Migration,技術挑戰與心得分享

前言 在上一篇文章中介紹了目前 CDN 搬遷的過程,以及在過程中遇到的問題與挑戰。這篇文章會針對技術上學習到的東西來再與各位進行下一步的分享。 主文 Multi...

鐵人賽 DevOps DAY 25

技術 重要事件1:ISO 27001,其它定期事務、挑戰與心態

前言 上一篇文章介紹了 ISO 27001 這個工作本身, 以及透過一個實際的改善項目來讓大家了解整個過程。 每次稽核過後,都會出現一連串的改善事項,在要求的時...

鐵人賽 DevOps DAY 28

技術 重要事件3:資料庫搬家,在文件上灑一點辛香料

前言 如同之前的所有系列一樣,重要事件也有大事件和小事件。而這篇文章將分享一篇小事件,也就是資料庫搬家的工作。 背景 背景故事是,我們的資料庫使用了某一個即將要...

鐵人賽 自我挑戰組 DAY 7
SRE 照書養 系列 第 7

技術 Day 7 - SRE 照書養:變更管理

大家週四好,今天我們要繼續 SRE 方法論的第五條:變更管理,這裡是今天讀的原文出處:Introduction,往後偷翻幾頁發現這週應該可以把第一章完成(歡呼!...