iT邦幫忙

2023 iThome 鐵人賽

DAY 22
1
Security

資安這條路:系統化培養紫隊提升企業防禦能力系列 第 22

紫隊這條路 Day 22 災難復原策略 (DRP,Disaster Recovery Plan)

  • 分享至 

  • xImage
  •  

前言

紫隊這條路 Day 20 資料安全、資料如何保護 我們探討了資料安全和保護的不同策略,並在 紫隊這條路 Day 21 應急計畫(Continuity Planning)的重要性 深入探討了業務持續性計畫 (BCP)。

本篇將帶領讀者更深入了解災難復原策略 (DRP) 和對應的方法。

什麼是災難復原策略

災難復原策略是一套規定、程序和工具,用以在發生大規模故障或災害後,能夠迅速地恢復和保護企業的資訊技術系統和資料。其目的是減少停機時間和資料損失,並確保業務的連續性。

災難復原不僅僅是資料備份。

針對恢復時間長度進行分級

恢復時間,參考兩個關鍵指標:

  1. 復原時間目標 (RTO)
    • 復原時間目標,指企業希望一個應用程式、系統或業務流程從中斷或失敗後復原到正常營運所需的時間
  2. 復原點目標 (RPO)
    • 復原點目標,只企業在災難復原後願意接受的最大資料損失範圍,它指的是最後一次備份和災害發生時之間的時間差

image alt

因為有效地進行管理和分配資源的目的,企業會針對 RTO 進行分級:

即時復原 (0-4 小時)

必須在 4 小時內恢復的業務功能或系統。
範例: 重要的金融交易系統、關鍵的醫療設備。

快速復原 (4-24 小時)

在一天內需要恢復的業務功能或系統。
範例: 客戶支援系統、電子郵件伺服器。

次要優先復原 (1-3 天)

可以接受 1 到 3 天恢復時間的功能或系統。
範例: 內部檔案共享系統、員工訓練平台。

延遲復原 (3 天以上)

可以容忍超過三天的恢復時間的功能或系統。
範例: 長期存檔、不常用的資料庫。

如何決定分級

決定恢復時間長度的分級可能會因為 BIA、業務考量、成本與資源:

  1. 業務影響分析 (BIA): 評估每個業務功能或系統的重要性,以及當它不可用時可能造成的影響。
  2. 業務需求: 某些業務流程對於組織的營運至關重要,因此可能需要更短的 RTO。
  3. 成本和資源: 雖然許多業務單位可能希望其系統具有即時或快速的恢復能力,但實際上,提供這種能力可能需要更高的成本和資源。

常見的還原機制

參考美國國家標準與技術研究院的指南 (NIST guidelines)、國際標準組織 (ISO) 的相關標準可常見可分成:

相互協助合約 - Mutual Aid Agreement (MAA) or Reciprocal Agreement

這是兩個或多個企業之間的協議,
當其中一個企業遇到災難時,其他企業將提供所需的資源進行恢復

比如說有 A、B銀行,兩間銀行簽約,假設 A 銀行的資料中心遭受淹水、火災,B 銀行提供了其備用資料中心供 A 銀行使用,使得 A 銀行能夠繼續其業務操作而不受影響。

適合中小型企業,因為可能沒有資源佈署/設計自己的備用網站或多個資料中心。

  • 選擇原因與注意事項
    • 資源共享
    • 節省成本
    • 需要注意地理位置考量(都在台北(可能台北都停電))
    • 合約中的法律與監管、權責問題

備用替代場合 - Alternate Site or Backup Site

專門為災難恢復準備的替代場所,會有必要的資訊技術和基礎設施。

當矽谷的某技術公司的主要資料中心遭受大範圍停電的影響時,該公司立即切換到位於台灣的備用資料中心,確保其雲端服務不間斷。

適合中到大型企業,因為通常具有資源和能力來維護備用網站。

  • 選擇原因與注意事項
    • 需要注意地理位置考量(都在台北(可能台北都停電))
    • 容納能力:是否可迅速轉過去,轉過去是否會有問題
    • 成本效益需要進行分析

常見的備用場所進行的簡單比較

場所分類 描述 優點 缺點 適用規模
熱備用場所 (Hot Site) 需要分配所有必要的硬體和軟體,並即時或頻繁地從原始地點接收資料。 快速復原、持續的資料更新 高成本、需持續維護 大型企業
溫備用場所 (Warm Site) 需要分配部分硬體和軟體。需要一些時間才能啟動和執行,但比冷備用場所快。 中等的復原時間、成本低於熱備用場所 啟動時間較長、不是即時更新 中大型企業
冷備用場所 (Cold Site) 空間和基礎設施是現成的,但需要時間來安裝必要的硬體和軟體。 成本低、靈活性好,可以根據需要進行設定 需要較長的復原時間、資料可能不是最新的 小到中型企業
移動備用場所 (Mobile Site) 裝在車輛或其他可移動的設施上的備用場所,可以根據需要快速移動到特定位置。 可移動、可以快速部署到需要的位置 較小的工作空間和容量、可能不適合所有業務 小到中型企業
鏡像場所 (Mirrored Site) 與原始地點完全相同的備用場所,即時複製所有資料和交易。 即時的資料複製、最快的復原時間 最高的成本、需要兩套完全相同的設備 大型企業

多服務中心 - Multi-site Configuration or Distributed Operations

公司在多個地點設有營業中心,這些中心可以互相支援,確保業務持續性。

全球的某電商公司在北美、歐洲和亞洲各設有訂單處理中心。

當北美的中心受到某種攻擊導致暫時無法運作時,歐洲和亞洲的中心增加了其工作負載,確保全球客戶的訂單仍能順利處理。

適合具有多個營業中心的大型或跨國公司可以更容易地應對災難,因為業務可以在其他地點繼續營業。

  • 選擇原因與注意事項
    • 每個中心的技術和業務能力
      -資料同步和完整性確保
    • 交通和物流考量
    • 成本與效益平衡

服務局 - Service Bureau

將業務過程或資訊技術服務外包給第三方供應商。

一家中型製造業公司決定將其財務系統和人事系統外包給一家專門的資訊服務廠商。

當該公司的主要辦公室受到火災的影響時,由於其重要的業務系統已被外包,公司仍能保持日常運作。

中小型企業至大型企業都適合外包業務功能或 IT 服務,因為中小型企業可能會選擇外包以節省成本和資源,而大型企業則可能外包非核心業務以專注於其主要業務。

  • 選擇原因與注意事項
    • 供應商的可靠性和經驗
    • 服務水平協議 (SLA) 中的具體條款
    • 成本與效益考慮
      -資料保護和隱私考慮

供應商安全也是需要注意的議題。

災難恢復計畫測試類型

DRP (Disaster Recovery Plan) 測試是為了確保在實際發生災害時,計劃能夠正確且有效地運作。

  1. 沙盤推演模擬測試 (Tabletop Exercise)
    這是一種討論型測試,其中參與者會聚集在一起,討論和檢查災難恢復計畫中的特定方案。

確認計劃的完整性並確定可能遺漏的任何地方。

  1. 步驟驗證測試 (Checklist Test)
    參與者按照 DRP 中的指南確認每一步。

確保所有的步驟都已被考慮並能夠執行。

  1. 模擬測試 (Simulation Test)
    模擬實際災難情況,但不會進行實際的恢復操作。

測試組織的反應,確保所有參與者都知道在實際事件中要做什麼。

  1. 完整中斷測試 (Full Interruption Test)
    這是最徹底的測試,涉及中斷實際營運並啟動DRP。

驗證整個恢復流程,從災難識別到業務恢復。

  1. 平行測試 (Parallel Test)
    恢復系統運作於備用位置,但主要系統仍然運作。

確保備用系統可以實際接管業務功能。

  1. 代理測試 (Walk-through Test)
    參與者走過整個災難恢復流程,但不啟動實際恢復操作。

確保所有參與者都熟悉他們的職責並理解整個流程。

企業可以採用的備份機制

RAID (冗餘獨立磁碟陣列)

RAID 是一種使用多個硬碟來儲存相同的資料,以增加資料的冗餘度和/或提高效能的技術。

組合硬碟有多種 RAID 等級,例如 RAID 0, RAID 1, RAID 5, RAID 6。

以下是一個簡化的比較各種常見 RAID 等級的表格:

RAID 等級 說明 優點 缺點
RAID 0 資料被平均分布在所有磁碟上,沒有冗餘。 最高的讀寫性能、完全利用所有磁碟容量 任何一片磁碟故障都會導致整個陣列的資料喪失
RAID 1 資料被鏡像到兩片或更多的磁碟。每片磁碟都是資料的完整拷貝。 提供完全的資料冗餘、讀取性能可能提升 只使用50% 的磁碟容量(或更低,取決於鏡像的磁碟數量)
RAID 5 資料和拜特級校驗資料交錯分佈在三片或更多的磁碟上。 良好的讀取性能、只需一片磁碟的容量作為冗餘 寫入性能下降、如果超過一片磁碟同時故障,將失去所有資料
RAID 6 資料和兩個獨立的拜特級校驗資料交錯分佈在四片或更多的磁碟上。 允許兩片磁碟同時故障而不失去資料、良好的讀取性能 寫入性能下降、需要至少四片磁碟、使用兩片磁碟的容量作為冗餘

提供資料冗餘,保護資料不受單個硬碟故障的影響;依據不同的 RAID 等級,它也可以提供增強的讀寫效能。

硬碟複製

即時複製,其中一個硬碟的所有資料都被複製到另一個硬碟。

提供即時的資料備份和容錯;如果主要的硬碟故障,複製的硬碟可以立即接管,無需恢復時間。

使用專門的硬碟複製軟體,如Acronis True Image, Clonezilla, Norton Ghost 也有硬體的複製設備。

備援技術

通常指定期間的資料備份,可以是每天、每周或每月的備份。

讓企業可以回到特定的時間點恢復資料,這對於不是即時的資料損失或破壞特別有用。

Electronic Vaulting

主要用於將資料從一個位置自動傳輸到另一個遠端位置或中心化的資料庫

  1. 快速和自動化的資料備份
  2. 減少人為錯誤與缺漏的丟失資料風險

交易日誌 (Transaction Logging)

記錄每一個交易的所有細節,當系統恢復後,未完成的交易可以被重新處理或回滾

遠端日誌 (Remote Journaling)

將主要系統上的交易日誌同步到另一個遠端系統,即使主系統發生故障,也可以使用遠端的交易日誌來恢復資料。

資料庫的 Shadowing (Database Shadowing)

主資料庫同時維護一或多個即時副本,對主資料庫的讀取和寫入操作同時也會被應用到這些副本上,如果主資料庫遇到問題,其中一個陰影或副本資料庫可以立即接手處理,擁有高可用性。這也確保了資料的完整性和可靠性。

負載均衡 (Load Balancing)

通過分散來自使用者端的請求到多個伺服器,負載均衡能夠確保系統不會因單一伺服器的超載而崩潰。如果一台伺服器失效,其他伺服器可以繼續處理交易。

階層式儲存管理 (Hierarchical Storage Management,HSM)

資料儲存的策略,它自動將資料移動到不同種類的儲存媒體之間,將資料從高速但成本較高的儲存(例如 SSD )自動移動到較慢但成本較低的儲存(例如 HDD)

移動的考量取決於設定的細節,如資料的年齡、最後存取時間、資料的重要性

異地備份

異地備份是指在不同的地理位置對資料進行備份,以確保在一地發生災害(如火災、洪水、地震等)時,資料仍然可以在另一地點恢復。這主要是為了增加資料的持續可用性和減少單一故障點的風險。

  • 異地備份類型

    • 物理備份:透過物理媒體(例如磁帶、硬碟等)進行備份,並將媒體存放在不同的地點。
    • 雲端備份:使用雲端儲存服務,如AWS S3、Google Cloud Storage或Azure Blob Storage等進行資料備份。資料會存放在提供商的一個或多個資料中心。
    • 私有雲或專屬資料中心:大型企業可能在多個地區設有自己的資料中心,可以在其中一個資料中心進行主要業務,並在另外的資料中心進行異地備份。
    • 複製技術:透過技術手段,例如資料庫複製或資料鏡像,將資料即時或定期複製到異地。
  • 需要注意的

    • 地理距離:異地備份的位置應該與主要資料中心有足夠的距離,以確保不會受到同一災害的影響。
    • 資料同步:根據業務需求,確定備份資料的即時性和完整性,選擇適當的備份頻率和方法。
    • 安全:確保異地備份的資料受到適當的加密和保護,特別是當使用公共雲服務時。
    • 恢復復時間目標 (RTO) 和恢復點目標 (RPO):要確定業務可以接受的資料恢復的最長時間和資料損失的容忍度。
    • 成本:雖然異地備份可以提供額外的資料保護,但也會帶來額外的成本。需要進行成本效益分析。
    • 網路頻寬:當大量資料需要快速備份到異地時,可能會需要較大的網路頻寬。

異地備份:實作方法

  1. 全量備份和增量備份
    • 全量備份 (Full Backup)
      • 每次都備份所有資料。
      • 資料恢復速度快,但每次備份所需的時間和儲存空間都比較大。
      • 建議的策略:定期進行,例如每週一次。
    • 增量備份 (Incremental Backup)
      • 只備份自上次備份以來有變化的資料。
      • 備份速度快且所需儲存空間小,但恢復資料時可能需要多個增量備份加上最後一次的全量備份。
      • 建議的策略:每天進行,輔助全量備份。
  2. 備份軟體和服務
    • 選擇一套適合企業大小和需求的備份軟體或服務。
    • 例如
      • Veeam:專為虛擬化環境設計的備份和復原解決方案。
      • Acronis:提供雲端和本地備份選項。
      • Druva:基於雲端的備份和資料管理解決方案。
  3. 定期檢查和測試
    • 至少每季度進行一次恢復測試,確保備份資料的完整性和可用性。
    • 記錄測試結果,並根據結果調整備份策略和方法。
  4. 資料壓縮和去重
    • 使用備份軟體中的壓縮功能,將備份資料壓縮,以節省儲存空間。
    • 利用去重技術 (Deduplication) 去除重複的資料區塊,進一步減少儲存需求。

連線容錯

  1. 一種保護機制,避免單點故障。
  2. 常見方式
    • 多條物理連接路徑,如使用不同的網際網路服務提供商或多條光纖連接
    • 負載平衡:使用負載平衡器來分配網路流量
    • VPN 容錯:如果使用VPN連接,可以設定冗餘的VPN連接,以確保主要連接失效時有備用連接
    • 自動故障切換:在偵測到主要連接中斷時,系統應該能夠自動切換到備用連接
    • 網路品質監控:實施即時的網路品質監控,以便於偵測和解決任何可能的問題

Cluster

將多台計算機伺服器組合在一起,作為一個單一的系統運作。每台伺服器稱為一個節點。這些節點可以共同工作以增加整體系統的可用性、效能或兩者。

當其中一個節點出現問題時,工作負載可以轉移到其他節點上,從而減少中斷的時間或避免中斷。

  1. 分享無狀態服務:這些服務不保存任何使用者狀態,因此任何節點都可以無縫地處理任何請求。例如,無狀態的 web 伺服器。
  2. 分享磁碟系統:多個節點可以同時存取同一個共同的儲存系統,但通常只有一個節點寫入資料,以防止資料不一致。
  3. 資料庫複製:資料庫可以在多個節點之間複製,以確保資料的冗餘和可用性。例如,主-從複製或多主複製。
  4. 心跳監控:節點間通常會進行所謂的"心跳"通訊,以監控每個節點的狀態。如果一個節點的心跳停止,其他節點會認為它已經失效,並開始故障轉移程序。
  5. 負載平衡器:負載平衡器坐落在 Cluster 的前端,將進入的流量分散到多個節點上。
  • 注意
    • 確保節點之間的網路連接是高速且低延遲的,尤其是在需要同步大量資料的時候
    • 當資料在多個節點間同步時,必須確保資料的一致性
    • Cluster 較為複雜需要有專業人員處理

新型服務

BaaS (Backup as a Service)

雲端提供的資料備份服務,允許企業或個人將他們的資料定期備份到雲端

DRaaS (Disaster Recovery as a Service)

一種在雲端提供的災害恢復服務。它不僅只是備份資料,還確保在災害情況下,整個 IT 環境(包括資料、應用程式和網路)都可以快速恢復。

一般人做的災難復原策略

一般人而言,災難復原策略會 Focus 生活、資產和數位資料的保護。

與資安相關

  • 個人資料備份
    雲端儲存:使用如Google雲端硬碟、Dropbox等雲端服務,定期備份重要文件。
    外部硬碟:每月或每季度將重要文件和照片複製到外部硬碟。

  • 數位安全
    保護個人的數位資訊。使用強密碼、雙因素認證,並定期更新軟體。

其他人身安全

  • 緊急備用金
    在不可預測的情況下,如失業或醫療緊急情況,至少儲存3-6個月的生活費用。

  • 重要文件的實體影本
    護照、出生證明、結婚證書、保險單等重要文件的影本,並儲存在防水和防火的保險箱中。

  • 家庭緊急計畫
    設計一個家庭緊急應對計畫,確定遇到火災或其他緊急情況時的逃生路線。
    了解地震、颱風或其他自然災害的基本應對策略。

  • 保險策略
    考慮購買適合的保險,如健康保險、房屋保險、汽車保險等,確保在災難發生時得到適當的賠償。

  • 教育和訓練
    參加基本的急救課程或災難應對工作坊,了解如何在緊急情況下保護自己和家人。

  • 物資備妥
    預備一些緊急物資,如飲用水、食物、手電筒、急救包、重要藥物等。

  • 住宅安全
    定期檢查家中的火警和煙霧警報器。
    確保家具和電視固定在牆上,避免因地震而摔落。

  • 持續更新策略
    由於生活狀況和需求會隨著時間而改變,定期檢視和更新災難恢復策略。

參考資料


上一篇
紫隊這條路 Day 21 應急計畫(Continuity Planning)的重要性
下一篇
紫隊這條路 Day23 Purple Team Exercise Framework (PTEF) 紫隊演練框架─紫隊演練的組成
系列文
資安這條路:系統化培養紫隊提升企業防禦能力30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言