iT邦幫忙

sre相關文章
共有 104 則文章
鐵人賽 DevOps DAY 15

技術 日常維運4:CDN 報表自動生產 & IAM user 定期盤點

前言 之前的文章中帶到了 3 個大型的維運工作,接下來緩口氣,來分享一些比較單純的日常維運工作,帶給各位更日常的感受,也同時為接下來即將進入的 P0 事件系列暖...

鐵人賽 DevOps DAY 14

技術 日常維運3: 註冊 OpsWorks 失敗,挑戰與心得

前言 前面介紹完了註冊 OpsWorks 失敗的解決方案。這篇文章想分享一些在處理過程中值得分享的事情。 Userdata 的挑戰 shell script 第...

鐵人賽 自我挑戰組 DAY 3
SRE 照書養 系列 第 3

技術 Day 3 - SRE 照書養:維運團隊需要具備開發能力?!

嗨嗨!大家週日好!昨天提到傳統 Dev 與 Ops 會產生的矛盾與衝突,並將內容延伸到為了解決這個問題, Google 組建了 SRE 團隊,期望將技術能力結合...

鐵人賽 自我挑戰組 DAY 2
SRE 照書養 系列 第 2

技術 Day 2 - SRE 照書養:Dev & Ops

沒想到一開賽就遇到週末,週末最適合配著書,喝個下午茶拉!那麼今天先來了解一下傳統開發部門跟維運部門,以及 SRE 的前世今生吧!這裡是今天讀的原文出處:Intr...

鐵人賽 DevOps DAY 13

技術 日常維運3: 註冊OpsWorks失敗,UserData與LifeCycle Hooks

前言 前一篇提到了 userdata 中透過 AWS CLI 來下達註冊 OpsWorks 的指令,會有失敗的可能性。這篇主要會來分享實驗過程與解決方式。 主文...

鐵人賽 自我挑戰組 DAY 1
SRE 照書養 系列 第 1

技術 Day 1 - SRE 照書養:一切地開始是那麼突然

距離上次參加鐵人賽竟然已經過了三年!上次是寫跟專案管理有關的內容,這次竟然要挑戰 SRE 的系列文章?!「小姐,你是不是也太跳 Tone」 XD,沒錯!我就是一...

鐵人賽 DevOps DAY 12

技術 日常維運3: 註冊OpsWorks失敗,事件與架構

前言 介紹了兩個日常維運的系列之後,接下來想分享給各位的,是與部署工具相關的維運。SRE 和 DevOps 有時候相當難區分的地方就在於,維運本身有許多工作難以...

鐵人賽 DevOps DAY 11

技術 日常維運2: 維護模式,困難、挑戰、未來

前言 前一篇文章提到了維護模式工具的改善結果,這篇文章主要分享的則會是 在整個過程中遇到的困難與挑戰,以及寫文章的當下,預期未來要改善方向。 困難 困難有大有小...

鐵人賽 DevOps DAY 10

技術 日常維運2: 維護模式,改善策略與結果

新工具簡介 在上一篇文章中分享了舊的維護模式工具的運作機制,以及該工具遇到的問題。 這篇文章將分享筆者重新設計後的維護模式工具,請見下圖: 上圖呈現了同一套架...

鐵人賽 DevOps DAY 9

技術 日常維運2: 維護模式,問題本身

前言 之前提到的日常維運工作,主要源自於某個重大的 P0 事件。雖然我們一般會有大型維運工作都是因為某些不能忽視的 P0 事件,但也不全然是如此,比如接下來要分...

鐵人賽 DevOps DAY 8

技術 日常維運1: 棒球賽,額外的挑戰

前言 上一篇文章中提到了關於棒球賽的改善策略以及針對改善策略的監控結果。這篇文章主要想分享的是在整個事件中額外觀察到的一些值得分享的兩件事情。 主文 負載平衡的...

鐵人賽 DevOps DAY 7

技術 日常維運1: 棒球賽,改善策略與監控

前言 上一篇文章有提到棒球賽的事件本身,這篇開始,要提到調查的過程以及改善的策略。 雖然事件的主因看起來是很明顯的,也就是短時間內因為活動而大量湧入的使用者,對...

鐵人賽 DevOps DAY 6

技術 日常維運1: 棒球賽,事件本身

前言 之前的文章中提到了各種監控系統,但警報不會天天響, P0 事件也不會天天發生,因此筆者日常的工作,大多反而是與維運相關的事務。因此,接下來將進入日常維運系...

鐵人賽 DevOps DAY 5

技術 特別監控系統2: 資料庫異常登入監控

前言 上篇文章已經介紹了一個客製化的特別監控系統,這篇文章則會是另外一個,希望能夠藉由這2個系統,讓大家可能理解SRE是為了什麼而做監控。 這個監控系統主要是為...

鐵人賽 DevOps DAY 4

技術 特別監控系統1: 第三方服務監控,第二波調整

背景 前一篇文章提到了第一波針對 APIGW 的監控修正,但因為最後發現的各種問題,導致我們要進行第二波針對這個監控的修正。 主要是,在某一次緊急的 P0 事件...

鐵人賽 DevOps DAY 3

技術 特別監控系統1: 第三方服務監控,第一波調整

之前的文章有提到了基本的監控系統,接下來會是介紹為了專案各自的狀況而建立的特別監控系統。 背景故事 首先是監控客戶系統的部分,背景故事其實相當單純。我們的系統在...

鐵人賽 DevOps DAY 2

技術 系統警報概論

在上一篇文章中介紹了基本的監控系統,並簡單帶到在發生警報時值班工程師的必須要做到的行動。這篇文章主要會介紹比較詳細的警報SOP,以及設置警報時的各種考量。 警報...

鐵人賽 DevOps DAY 1

達標好文 技術 前言 & 基本監控系統

(寫在獲獎後) 逐家好,Ta̍k-ke hó。 原本是抱持著單純參賽與記錄工作經驗的心情來撰寫文章的,沒想到非常幸運地獲得評審的青睞,能獲得這次的冠軍。誠如原文...

鐵人賽 DevOps DAY 30

技術 Day 30 完賽宣言 - 下一步該如何走?

本篇大綱 這篇來總結這 30 天學了哪些東西,要怎麼繼續學習 IT/SRE 的相關知識,還有完賽心得。 內文 終於 Day 30 啦!這篇來回顧一下學習了哪些東...

徵才 【徵才/台北/部分遠端】富果帳戶-Site Reliability Engineer

關於富果 富果帳戶,是年輕人都在用的投資帳戶! 在富果的每一位夥伴都相信著,透過持續學習和進步,投資這項技能將成為我們這個世代,累積財富的一種理想方式。所以我們...

鐵人賽 IT管理 DAY 13

技術 Day 13 運算寶石:【Lab】EC2儲存資源 EBS Volume 建立與使用 (下)

今天,我們繼續【Lab】EC2儲存資源 EBS Volume 建立與使用下半部分。 連進 EC2 Instance 設定 EBS Volume 使用 再來回到...

鐵人賽 DevOps DAY 14
Dev's Ops 啟程 系列 第 14

技術 [Day 14] 關於 SRE 與 SEC 的關係

關於SEC的事情 資料庫演練100%備份還原 每年至少兩次的資料災害恢復演練,資料要100%覆蓋,要100%可恢復!可以由資深同仁帶著比較沒經驗的同仁,順便幫助...

鐵人賽 DevOps DAY 13
Dev's Ops 啟程 系列 第 13

技術 [Day 13] SRE - 悟

關於身為SRE團隊的心得 關於SRE的系列終於分享完囉~所以講一下SRE從零星到有概念後的心得,以下是關於團隊,個人覺得關於系統的維運面的心得 成員信心提高 大...

鐵人賽 DevOps DAY 12
Dev's Ops 啟程 系列 第 12

技術 [Day 12] SRE - 定期演練計畫

災害模擬演練 今天跟各位分享一下,我們團隊從零開始的定期演練流程。 事前準備 先開個google試算表,與團隊成員共享。開個「模擬事件List」分頁,然後貼到群...

鐵人賽 DevOps DAY 11
Dev's Ops 啟程 系列 第 11

技術 [Day 11] SRE - 事後檢討,拜託拜託讓我吸個經驗值

從歷史中學習 我們最討厭事件歷史重演QQ在每次遇到問題後,我們全員都會一起開個檢討會議,當中會提到問題發生的根源,是否會再發生?是否能自動化?是否有介面 or...

鐵人賽 DevOps DAY 10
Dev's Ops 啟程 系列 第 10

技術 [Day 10] SRE - ON-CALL

ON-CALL 今天為大家介紹ON-CALL常見的須注意之事項 建立心態 我為人人,人人為我,今天你幫大家解決問題,大家之後也會在你不便之時幫助你,以我們te...

鐵人賽 DevOps DAY 9
Dev's Ops 啟程 系列 第 9

技術 [Day 9] SRE - 自動化

自動化 什麼東西可以自動化?對我而言只要可以列出SOP的事情,都可以實現自動化。 價值 一致性 當不同人遇到同樣的事件,處理的方法可能有百百種,但不一定每個人處...

鐵人賽 DevOps DAY 8
Dev's Ops 啟程 系列 第 8

技術 [Day 8] SRE - 火炎焱燚之保衛戰

火燒起來怎麼辦? 當你聽到手機有叮咚叮咚,一連串的alert表示服務已無法繼續服務,幾分鐘後電話來了,通報案件後,你該如何是好? 先保持冷靜 保持冷靜,避免過...

鐵人賽 DevOps DAY 7
Dev's Ops 啟程 系列 第 7

技術 [Day 7] SRE - 故障排除小技巧

故障排除小技巧 通常故障排除的流程如下圖 常見的陷阱 誤解故障的現象,扭曲現象的含義,只會浪費時間追問題。 簡單來說就是沒有按照SOP流程執行,漏掉某些步驟以...

鐵人賽 DevOps DAY 6
Dev's Ops 啟程 系列 第 6

技術 [Day 6] SRE - 起身對抗活在警報中的惡魔

警報疲乏 相信大家都聽過「放羊的孩子」的伊索寓言故事。 今天我們探討的問題是當團隊中的警報器常常發生不是「真正的警報」而是「假警報」時,會導致大家對於警報的警覺...