定義災難場景
再寫執行步驟
再來是執行測試
不測試
等到你真的要用時才發現有問題
公司一定會怪你錢都白花的
基本上,就是假定,系統掛了,server要重裝,上面的服務要怎麼回復。
或是有辦法把服務轉到其他台server,讓服務繼續正常運作。
就想像這些事真的發生,你會做什麼事來復原吧。
先定義出 RPO 和 RTO 吧, 接下來你才知道有多少時間讓你做復原? 也才知道要用多昂貴的工具, 才能在指定的 RTO 時間內, 完成復原的工作:
Disaster recovery plan
然後你要定義出災難種類, 評估各種災難的風險, 和復原的策略與方法, 再根據每一種方法去寫計畫, 並根據計畫進行實地測試.
第一步 從影響最小 的電腦 先假設 他掛點 (各種電腦零件掛點)
手邊1-1 有機器(同等電腦 或相同電腦)
1-2 高一等機器
1-3 低一等電腦
1-4 無電腦
第二步 開始假設
2-1 有可能怎麼掛點
2-2 如何判定掛點(最快時間得知掛點)
2-3 拆裝買硬體 時間流程
2-4 軟體復原 時間流程
2-5 設定測試 時間流程
2-5 通知直屬長官 員工 客戶 流程
第三步 寫工作紀錄
3-1 實際處理流程
3-2 發生原因 或處理盲點 檢討
3-3 購買備品 合約
.....
確認沒問題 然後再換一台機器
IT 災內復原計畫 主要考慮 RTO & RPO
要定義出需要多少時間內回覆
若是VM 環境的災難復原可考慮 SP 的IME架構 (類備援)