Day 27 災難備援 > AWS DRS (Elastic Disaster Recovery) 二

2024 iThome 鐵人賽

DAY 27

Security

雲上安全疑難雜症手冊系列第 27 篇

16th鐵人賽 aws dr

Linus Lin 小呱

2024-10-11 14:41:29

794 瀏覽

分享至

AWS DRS 第二部分 - 測試與監控

昨天配置好 DRS 的源伺服器和複寫主機後，
我們來測試是否有成功複寫至次要區域！

六、測試故障轉移

我們可以做一個假設情境的故障轉移，來測試我們的災難備援策略的可執行性

在 DRS 控制台中創建一個演練
選擇要包括在演練中的伺服器
啟動演練並監控進度
驗證原本環境功能及資料是否完整
完成後，執行清理步驟

七、設定持續複製

確保源伺服器和AWS之間的網絡連接穩定
監控複製延遲和複製狀態
根據需要調整頻寬使用設置

八、配置監控和警報

設置Amazon CloudWatch警報以監控關鍵指標
配置EventBridge規則以響應特定的DRS事件
設置通知機制，如SNS主題

本次30天文章中，之前有提到配置CloudWatch的指標及警示
可以到連結複習一下唷！
Day11 帳號監控 > CloudWatch 指標 Metrics
Day13 帳號監控 > CloudWatch 警報 Alarms

這邊我們建立指標時可以選用下列：

ReplicationServerState: 監控複製服務器的狀態
DataReplicationLatency: 監控數據複製的延遲
RecoveryInstanceState: 監控恢復實例的狀態

建立後，再使用警示來套用建立的指標，可發送SNS或者email來通知

以下建議配置指標及警示條件：

複製延遲警報：

監控指標：DataReplicationLatency
警示條件：大於 30 分鐘
描述："資料複製延遲超過 30 分鐘"

複製伺服器狀態警報：

監控指標：ReplicationServerState
警示條件：不等於 "HEALTHY"
描述："複製伺服器狀態異常"

恢復實例狀態警報：

指標：RecoveryInstanceState
條件：等於 "STOPPED" 或 "TERMINATED"
描述："恢復實例已停止或終止"

演練狀態警報：

指標：DrillStatus
條件：等於 "FAILED"
描述："DRS 演練失敗"

九、執行實際故障轉移

評估故障轉移的需求
在DRS控制台中啟動恢復
監控恢復進度
驗證應用程序功能
更新DNS或負載均衡器以指向恢復的實例

十、持續維護和優化

做完一整套的災難備援規畫及實行後，
還是需要持續的維護，以及根據未來使用狀況，不斷優化災難備援策略

定期執行故障轉移演練
根據應用程序變化更新復原設置
監控和優化成本
保持AWS Replication Agent為最新版本

災難備援，在難不慌，大家要有未雨綢繆的好習慣唷!

Day 26 災難備援 > AWS DRS (Elastic Disaster Recovery) 一

Day 28 威脅檢測 > AWS GuardDuty

系列文

雲上安全疑難雜症手冊共 30 篇

RSS系列文訂閱系列文

5 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

vs code不能執行npm找了很多方法

IT邦幫忙

雲上安全疑難雜症手冊系列 第 27 篇