Day27 - 災難恢復與備份策略 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 27

DevOps

DevOps菜鳥的30天實踐挑戰：從 CI/CD Pipeline 到雲端佈署系列第 27 篇

Day27 - 災難恢復與備份策略

16th鐵人賽 disaster recovery backup kubernetes 備份

hsinyu9901

2024-10-11 21:15:12

958 瀏覽

分享至

在今天的文章中，我們將探討 Kubernetes 叢集中的 災難恢復 與 備份策略。制定一個有效的備份和災難恢復方案，無論是遇到基礎架構的崩潰，還是應用程式的意外損毀，都能夠幫助我們快速恢復系統並將影響降到最低。

什麼是災難恢復？

災難恢復 (Disaster Recovery, DR) 是指在發生重大故障或災難事件時，恢復系統正常運行的流程與策略。Kubernetes 的災難恢復主要關注於應用的 狀態恢復 和 資料一致性，這涉及到備份應用狀態、配置文件以及數據持久化等關鍵部分。

常見的災難類型包括：

硬體故障：伺服器或節點的物理損壞或失敗。
操作錯誤：錯誤的應用佈署或資源刪除。
網路問題：網路中斷導致應用無法正常運行。
資料丟失或損壞：應用中的數據被損壞或刪除。

災難恢復與備份的重要性

備份與災難恢復是確保系統高可用性和業務連續性的關鍵。當叢集或應用因故障而無法正常運行時，通過備份策略可以快速將系統恢復到正常狀態，減少停機時間並避免資料永久丟失。

對於 DevOps 團隊來說，建立一個完整的**備份與恢復計畫，**不僅僅是為了保護數據，更是為了保持服務的高可用性、合規性和可操作性。

Kubernetes 備份策略

在 Kubernetes 環境中，主要需要備份以下關鍵資源：

Etcd：Kubernetes 的核心資料庫，存儲叢集的所有狀態資訊。
Persistent Volume (PV)：存儲應用程式的數據。
Kubernetes 資源配置：如 Deployment、Service、ConfigMap、Secrets 等。

Etcd 備份

Etcd 是 Kubernetes 的後端資料庫，負責保存叢集的狀態。定期備份 etcd 是確保 Kubernetes 叢集能夠快速恢復的關鍵。

手動備份 Etcd

可以使用以下命令手動備份 etcd 資料，存為一個 snapshot.db 文件，當發生問題時可以用此文件來恢復叢集的狀態。

ETCDCTL_API=3 etcdctl snapshot save snapshot.db \
  --endpoints=<https://127.0.0.1:2379> \
  --cacert=<trusted-ca-file> \
  --cert=<cert-file> \
  --key=<key-file>

自動化備份

如果需要更高效的備份方案，可以通過 CronJob 來定期執行自動備份。例如，可以設定一個 CronJob 來自動備份 etcd 並將其存儲到遠端的備份系統，如 AWS S3 或 Google Cloud Storage。

備份 Persistent Volume (PV)

對於 Persistent Volume (PV)，我們可以使用下列方法進行備份：

Storage Provider 的內建備份功能：許多雲端存儲提供商(如 AWS、GCP、Azure)支援快照備份(Snapshot Backup)，這可以定期對 Persistent Volume 進行備份。
使用 Velero：Velero 是一個開源的 Kubernetes 備份工具，專門用來進行叢集的備份與恢復。它支援備份 Kubernetes 中的配置與數據，並能夠將備份數據存儲到遠端存儲中，例如 AWS S3、GCP Storage。

velero install --provider aws \
  --bucket mybucket \
  --secret-file ./credentials-velero

Velero 能夠將整個 Kubernetes 叢集的狀態以及Persistent Volume的數據進行備份與恢復。

備份 Kubernetes 資源配置

通過備份 Kubernetes 的資源文件(如 Deployment、Service、ConfigMap、Secrets)，我們可以確保即使叢集失效，這些配置仍然能夠被快速恢復。

kubectl get all --all-namespaces -o yaml > all-resources-backup.yaml

這個命令會導出所有 Kubernetes 資源的 YAML 配置文件，當需要恢復時，只需重新導入這些文件。

kubectl apply -f all-resources-backup.yaml

恢復策略

恢復 Etcd

如果 etcd 損壞，叢集將無法正常運行。此時可以通過之前的 etcd snapshot 進行恢復：

ETCDCTL_API=3 etcdctl snapshot restore snapshot.db

恢復 Persistent Volume

如果Persistent Volume數據出現問題，可以使用存儲提供商的快照功能或 Velero 來恢復，確保數據能夠被應用程式正常讀取。

恢復 Kubernetes 配置

使用備份的 YAML 文件，可以快速恢復應用的佈署狀態：

kubectl apply -f all-resources-backup.yaml

這將重新創建之前所有的 Kubernetes 資源，讓應用回到之前的狀態。

小結

今天我們學習了如何為 Kubernetes 叢集設置有效的備份與災難恢復策略。無論是 etcd、Persistent Volume還是 Kubernetes 資源，通過正確的備份和恢復流程，DevOps 團隊能夠在面臨故障時快速應對，將影響降到最低！

除此之外，大多數雲服務提供商(如 AWS、Azure、GCP)都提供多個可用區(Availability Zone) ，是為了實現高可用性和容錯能力，而設計的獨立物理區域。每個區域都擁有獨立的電源、網路和冷卻系統。為了提升容錯能力和備份策略，建議將備份數據存儲在不同的可用區中，確保即使某一個可用區發生故障，數據也不會丟失，可以在其他可用區中迅速恢復應用服務。