Day29 - vLLM實作篇PART5：監控vLLM - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 29

生成式 AI

Local LLM infra & Inference 一部曲系列第 29 篇

Day29 - vLLM實作篇PART5：監控vLLM

16th鐵人賽 llm vllm monitoring dashboard

母湯小精靈

團隊為了AI而AI

2024-09-30 17:00:57

1201 瀏覽

分享至

前言

接續昨天的監控介紹和 Day24 的實作篇，今天就要來介紹如何使用開源工具Prometheus和Grafana來監控vLLM的一些硬體與推理指標，最後實作一個非常基礎的dashboard 📊。

因為這篇也是一堆圖，所以先放大綱。

🔍 章節大綱

vLLM Production Metrics 介紹 📘

Docker Compose 安裝 Prometheus 和 Grafana 🐳

串接 + 拉 dashboard 📊

vLLM logs 介紹 📖

⚠️ 注意：因為筆者在infra時期只懂皮毛，所以這篇的方法基本上都是GPT-4o老師教的，僅供參考。

(圖源: Medium，雖然dashboard看起來很漂亮，但後面的pipeline也是很重要的)

📘 vLLM Production Metrics

官方文件有提供一個監控的方法，在OpenAI compatible API server的/metrics endpoint，其中監控指標vLLM用英文都取名得很白話，但同時也歡迎參考 Day4。

假設你開了一個vLLM服務在http://localhost:8000/，這時如果curl http://localhost:8000/metrics會發現有很多這種格式的回應：

# HELP vllm:num_requests_running Number of requests currently running on GPU.
# TYPE vllm:num_requests_running gauge
vllm:num_requests_running{model_name="yentinglin/Llama-3-Taiwan-8B-Instruct-128k"} 0.0

這種資料格式是「Exposition formats」，是prometheus的資料格式。

# HELP是一個可選的說明行，用來解釋這個metric的作用。
# TYPE用來指定這個metric的類型。Prometheus中常見的metric類型包含：
- counter：遞增計數器，表示累積的資料（例如請求的總數）。
- gauge：可增減的資料，表示當前的狀態或數值（例如資源使用率、當前的請求數量）。
- histogram 和 summary：用於測量資料分佈的metric。
vllm:num_requests_running是這個metric的名稱。
{model_name="yentinglin/Llama-3-Taiwan-8B-Instruct-128k"}是這個metric的label。
- Label是用來區分不同情況下的metric的值的。
- 這裡的label是model_name，它的值是yentinglin/Llama-3-Taiwan-8B-Instruct-128k。
- 如果有多個模型，就可以針對model_name選擇要看哪一個模型的資料。
0.0是這個metric當前的值，表示在這個模型上請求數量是0。

⚠️ 其他詳細介紹和使用方式請深入研究Prometheus和PromQL！

🐳 Docker Compose安裝Prometheus和Grafana

先創個資料夾來放yaml檔。

mkdir prometheus-grafana 
cd prometheus-grafana

接下來建立prometheus.yml和docker-compose.yml兩個文件。

prometheus.yml

global:
  scrape_interval: 15s  # Prometheus每15秒拉取一次資料

scrape_configs:
  - job_name: 'custom-metrics'  # 任務名稱，可以自定義
    static_configs:
      - targets: ['特定IP:8000']  # 這裡填寫你要監控的metrics地址，例如'127.0.0.1:8000'，不用加上/metrics

docker-compose.yml

version: '3.7'

services:
  prometheus:
    image: prom/prometheus:latest  # 用最新版本的Prometheus
    container_name: prometheus
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml  # 把本地的prometheus.yml映射到容器內
    ports:
      - "9090:9090"  # 把容器內的9090 port映射到電腦
    restart: unless-stopped  # 如果服務出問題自動重啟

  grafana:
    image: grafana/grafana:latest  # 用最新版本的Grafana
    container_name: grafana
    ports:
      - "3000:3000"  # 把容器內的3000 port映射到電腦，這是Grafana的Web介面
    restart: unless-stopped

啟動Docker Compose

docker-compose up -d

可以看到prometheus和grafana的ID都有成功建立docker了。

📊 都串接起來 + 拉 dashboard

打開Grafana http://localhost:3000 ，預設帳密是admin@admin，第一次登入會需要改密碼。

登入之後找到Connection > Data sources > Add new data source
選擇prometheus，之後把prometheus的URL http://localhost:9090/填上去，最下面Save & test。

再來就可以直接建立dashboard了。

⚠️ 再度提醒，筆者是超級Grafana菜鳥，這邊請參考專門撰寫Grafana的系列來拉dashboard。

稍微介紹一下欄位。

下圖是筆者隨便拉的，偷偷更新一個好看的版本QQ

右邊的request_success_total會因為finished_reason區分成不同的累加，這些都可以透過PromQL去做顯示上的調整，顯示上顏色的調整就看個人。

建立dashboard時下面的值不知道要填啥，可以從Explore > Metrics去看。
截圖的時候因為才剛開起來，還沒有vLLM的request，所以除了counter之外的metric都是no data。

筆者這邊用postman Runner瘋狂打5分鐘就有很多資料了！

🐞 如果一直都沒有資料，想要debug確定你的prometheus有沒有問題：
可以先下docker logs prometheus檢查有沒有問題。
如果還是找不到，可以去http://localhost:9090/介面看看State有沒有DOWN。

筆者之前腦霧忘記自己改了vLLM的port，但prometheus沒改就直接DOWN沒資料了，還花了一堆時間找原因ಥ_ಥ。

（另外需注意prometheus資料儲存時間設定，若沒特別設定，會存15天內的資料。）

📖 vLLM logs

官方文件同時也有提供一個vLLM logs放置的位置，這邊以官方給的例子來介紹：

tail ~/.config/vllm/usage_stats.json

{
  "uuid": "fbe880e9-084d-4cab-a395-8984c50f1109",
  "provider": "GCP",
  "num_cpu": 24,
  "cpu_type": "Intel(R) Xeon(R) CPU @ 2.20GHz",
  "cpu_family_model_stepping": "6,85,7",
  "total_memory": 101261135872,
  "architecture": "x86_64",
  "platform": "Linux-5.10.0-28-cloud-amd64-x86_64-with-glibc2.31",
  "gpu_count": 2,
  "gpu_type": "NVIDIA L4",
  "gpu_memory_per_device": 23580639232,
  "model_architecture": "OPTForCausalLM",
  "vllm_version": "0.3.2+cu123",
  "context": "LLM_CLASS",
  "log_time": 1711663373492490000,
  "source": "production",
  "dtype": "torch.float16",
  "tensor_parallel_size": 1,
  "block_size": 16,
  "gpu_memory_utilization": 0.9,
  "quantization": null,
  "kv_cache_dtype": "auto",
  "enable_lora": false,
  "enable_prefix_caching": false,
  "enforce_eager": false,
  "disable_custom_all_reduce": true
}

而這些資料也可以整合進ELK Stack當中，再依照需求去做更進階的分析。同樣地，如果想學這些設定，請再去閱讀相關的系列XDD

也許留著這些會有企業感到不舒服，因此官方也有提供不要存這些資料的方法。

設置環境變量 VLLM_NO_USAGE_STATS=1 或 DO_NOT_TRACK=1。

或是建立一個文件 ~/.config/vllm/do_not_track 來禁止資料收集。

延伸閱讀

10/8補充：後來從這個discussions發現vLLM官方dashboard藏在這裡！！
直接下載grafana.json再import到grafana上就可以用啦，連一分鐘都不用就設定好了，好快好潮！

其他也有別人做的，用InfluxDB抓GPU相關資料的dashboard，看起來也滿不錯的，但自己拉也是很好玩，拉了一個禮拜後終於找回手感了（？？？）

💡 其他可以放在dashboard上的內容

11/15補充：筆者後來去惡補了Observability Three Pillars，也就是Metrics、Logs、Traces。而目前這章節主要是Metrics的監控和視覺化，其餘Logs和Traces依照各專案可以去做設定。在查了許多專門做LLM monitoring & observability的公司產品後，大概發現了常見的內容：

Metrics - 統計數據和趨勢
- Speed（TTFT、TPOP、latency）、token counts（分成prefill和generation）、throughput、models（如果有提供多種模型）、cost（如果是付費API）、API呼叫來自哪一個國家、人機互動（user評分和按讚率）。
- 比較特殊的還有付上回應評估功能的系統，假設是RAG產品會監控：QA correctness、幻覺、relevance、最特別的是有沒有被prompt injection，這些可能就可以搭配logs去做進階分析。

而在這章節的教學中，比起其他人的產品，更多了server收到的requests分析，停止原因，GPU Cache等資訊。

Logs - 具體的requests細節
- 若是有user回饋的系統可以記錄user按讚率（或分數）、被按讚的prompt和answer，可以用表格呈現在dashboard上。
- 其餘的則是一般系統logs呈現，方便debug。
Traces - 每個request在系統內部的完整路徑，以及在各服務之間的傳遞情況
- 如題，這個可以選擇自行建設在程式碼中，也可以選擇使用別人的產品套用進程式中，目前已有的產品基本上都是要套用該公司的API才能使用，若是喜愛開源服務的話，可以考慮使用Langfuse。

很多公司產品都是以Traces為主，附加一些包含基本Metrics的dashaboard，整體而言看起來若是專案不大，也可以考慮自行建設可觀測系統。

關於LLM監控的詳細介紹，Confident AI這篇文章寫的不錯，若讀者有興趣可以看一下。

如果有在使用llama_index的朋友，也許有發現官方文件已經有一些可以連動的Observability方法，也可以嘗試看看。