D15 monitor metrics

2023 iThome 鐵人賽

DAY 15

DevOps

SRE/K8S 碎碎念系列第 15 篇

15th鐵人賽

嗷嗷嗷

2023-09-30 01:58:14

590 瀏覽

分享至

剛好在 2023 DevOps Day 聽到 Blueswen 在國泰的可觀測性實踐，是一場很啟發且淺顯易懂的演講。於是決定接下來幾個章節以現有 Monitor 介紹跟我們遇到的問題為主題。

Monitor 分成 metrics, log, trace。metrics聚焦在發生什麼事情上，通常拿來看 node pod 使用情況，或是 CPU 等狀況。

我們的 metrics 設定方法很簡單，就是使用 helm 的 aws_cloudwatch_metrics。AWS CloudWatch Metrics 是一個監控服務，監視性能、設定警報並對指標進行分析。

在 EKS 中會收集以下指標類別：

叢集和節點級別指標：包括 CPU 使用率、記憶體使用率、網路流量等。這些指標可幫助您了解整個叢集和特定節點的健康狀況。
Namespaces 級別指標：顯示在每個 namespace 所使用的資源情況。
工作負載級別指標：對 Deployment、ReplicaSet、StatefulSet 和 DaemonSet 進行監控，提供詳細的資源利用率和故障排查信息。
容器和 Pod 級別指標：針對單個容器和 Pod 的 CPU、記憶體、網路等資源使用情況進行監控。

啟用 CloudWatch Metrics

resource "helm_release" "aws_cloudwatch_metrics" {
  name       = "aws-cloudwatch-metrics"
  repository = "https://aws.github.io/eks-charts"
  chart      = "aws-cloudwatch-metrics"
}