Monitoring Best Practices －監控的黃金法則

2023 iThome 鐵人賽

DAY 7

Cloud Native

時光之鏡：透視過去、現在與未來的 Observability系列第 7 篇

15th鐵人賽 monitoring

Blueswen

2023-09-22 18:14:30

2393 瀏覽

分享至

Prometheus 從 Application 與 Exporter 收集各種 Metrics 後，面對上百種指標，我們應該特別關注哪些呢？參考別人分享的各種 Dashboard 當然是一個快速有效的方式，但是否有更核心的概念可以遵循？以下將介紹三種常見的 Monitoring Best Practices：

The USE Method

The USE Method，由 Brendan Gregg 發明，用於排除系統效能問題，可以快速判斷資源瓶頸或錯誤情況。USE 分別代表的是：

Utilization 使用率：資源在多少比率的時間中是忙碌的，例如 CPU 使用率、網路使用率、硬碟使用率等。
Saturation 飽和度：資源有多少工作在等待被完成，例如 CPU Run Queue、網路 Buffer、硬碟 I/O Queue 等。
Errors 錯誤情況：錯誤事件的數量，例如 HTTP 500、硬碟 I/O Error 等。

The USE Method 的設計理念是，在系統出現錯誤時，可以針對 CPU、記憶體、網路、硬碟等資源，依序檢查上述三項指標，找出問題所在。反過來說，可以隨時監控這三項指標，提早發現問題。

The Four Golden Signals

The Four Golden Signals 出自於 Google 的 Site Reliability Engineering，該書在 Google SRE 網站上可免費線上閱讀。這四個指標是在監控分散式系統時的重點：

Latency 服務請求時間：處理請求所需時間，需區分成功與失敗的請求。例如，HTTP 500 可能很快得到回應，而一般請求需更長時間執行流程，若合併計算，會難以分辨取得的實行時間指標是否異常。
Traffic 使用者用量：系統上使用者的需求量，需依照服務類型來定義，例如：
- API、Web：每秒請求數
- 串流服務：網路 I/O、連線數
- DB：每秒查詢數、交易數
Errors 錯誤比率：失敗請求的比率，需區分顯式（Explicitly）與隱式（Implicitly）的錯誤，例如：
- 顯式：如 HTTP 500、HTTP 404
- 隱式：HTTP Code 正常，但業務邏輯錯誤，如回傳內容包含 returnCode = -1
Saturation 資源飽和度：資源有多滿，資源飽和後服務效能可能會大幅降低或不可用，例如：硬碟空間、網路頻寬。

The RED Method

The RED Method 是 Weaveworks 所遵循的監控理念，由 Weaveworks 前工程師、現任 Grafana Labs CTO Tom Wilkie 提出，融合了 The USE Method 與 The Four Golden Signals，定義了三種指標用以監控系統中的所有微服務：

(Request) Rate：每秒請求數
(Request) Errors：每秒失敗請求數
(Request) Duration：請求耗時分布

Lab

範例程式碼：07-monitoring-best-practices

Quick Start

啟動所有服務
```
docker-compose up -d
```
檢視服務
1. Prometheus: http://localhost:9090
2. FastAPI App: http://localhost:8000
  1. 可瀏覽 http://localhost:8000/metrics 確認 Metrics 資料
  2. 對 FastAPI App 發送 HTTP Request，即可看到 Dashboard 的變化
    1. 透過瀏覽器發送 Request
    2. 或是使用 k6 發送 Request
```
k6 run --vus 1 --duration 300s k6-script.js
```
3. Grafana: http://localhost:3000，登入帳號密碼為 admin/admin
關閉所有服務
```
docker-compose down
```