Metrics 指標監控 |
可量測的數據,如 QPS、延遲、錯誤率 |
Prometheus、InfluxDB |
openshift-monitoring 的 Prometheus |
Logging 日誌收集 |
結構化紀錄系統事件,便於查錯 |
EFK (Elasticsearch + Fluentd + Kibana)、Loki |
OpenShift Logging stack (openshift-logging Project) |
Tracing 追蹤請求流程 |
跨服務追蹤,找出瓶頸和延遲來源 |
Jaeger、Zipkin、Tempo、OpenTelemetry |
OpenShift Distributed Tracing (jaeger-all-in-one ) |
Alerting 警示系統 |
根據指標與規則發送通知 |
Prometheus Alertmanager、PagerDuty、Opsgenie |
Alertmanager 內建於 openshift-monitoring |
SLO / SLI / SLA |
設定並監控服務水準目標 |
SLO 計算器、Grafana SLO panels |
可用 PromQL 查詢、Grafana 呈現、結合 Alerts |
Error Budget |
容錯空間(1 - SLO)範圍內允許的錯誤 |
結合 SLI 計算公式,Grafana 顯示 |
使用 Prometheus rule 設定 + SLA dashboard |
Runbook / Playbook |
事先規劃好的故障排查 SOP |
Confluence、Notion、Git repo 文字檔 |
儲存在 GitOps Repo / configmap / ConsoleLink |
Incident Management |
異常處理流程,包含通知、處置、回報 |
PagerDuty、Statuspage、Jira Incident |
可整合 webhook 通知工具,或接收告警 |
Postmortem 報告 |
RCA 根因分析與後續行動方案 |
Google Docs、Markdown 模板、Incident.io |
作為 CI/CD 的一部分或納入 GitOps flow |
Capacity Planning 容量預估 |
根據歷史數據預測資源使用 |
Prometheus + Grafana + Forecast plugin |
OpenShift Console 中資源圖表,或自建儀表板 |
自動化修復 |
系統異常時自動 rollback 或重啟服務 |
K8s Liveness/Readiness Probe、Argo Rollouts |
OCP 中 Deployment 自動重啟、ArgoCD auto sync |
可用性設計 |
多副本、容錯、冗餘、Failover |
K8s HPA, Multi-zone Deploy, LoadBalancer |
OCP 的 Route + HAProxy + HPA + readinessProbe |
Blackbox Monitoring |
從用戶端模擬請求驗證服務是否可用 |
Blackbox Exporter、curl script |
安裝 blackbox-exporter 並用 ServiceMonitor 掛上 |
Change Management |
控制部署頻率、管理風險 |
GitOps、Canary、Blue/Green Deploy |
OpenShift GitOps (ArgoCD)、Route shifting |
Chaos Engineering |
故障演練、驗證系統韌性 |
Chaos Mesh、Gremlin、LitmusChaos |
可於 dev 環境實作,或整合 K8s Job 模擬故障 |