Day21 - Ray Dashboard - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 21

AI & Data

MLOps/LLMOps - 從零開始系列第 21 篇

Day21 - Ray Dashboard

15th鐵人賽

jimmyliao

2023-10-06 14:28:38

660 瀏覽

分享至

Ray 提供了一個 Dashboard 來監控 Ray 的狀態，包含了 Ray 的 Cluster 狀態、Task 狀態、Actor 狀態、Resource 使用狀態、Error 狀態等等，可以透過瀏覽器來查看。

安裝 Ray Dashboard

透過 pip install -U ray[default]，就會包括 Ray Dashboard component。然後呼叫 ray.init() 就可以看到 Dashboard 的網址。

```python
import ray
context = ray.init()
print("Dashboard URL: http://{}".format(context.dashboard_url))
```

如果是 Remote Ray Cluster，因為 Dashboard 在 head node 但是 port 通常不會直接開放，可以參考這份文件設定。

另外前一段提到，安裝 Ray cluster 的選項是 ray[default]，在 production 環境，會根據不同情境裝對應的 Ray component，可以參考這份文件。

舉例來說，Machine learning applications 的話

pip install -U "ray[data,train,tune,serve]"

# For reinforcement learning support, install RLlib instead.
# pip install -U "ray[rllib]"

另外的選項建議點到 Advanced 查看。

Ray Dashboard Views

分析、監控、視覺化邏輯或實體元件的狀態和資源使用率指標：Metrics view, Cluster view
監控 Job 和 Task 的進度和狀態：Jobs view
尋找失敗的 Task 和 Actor 的 logs 和 error messages：Jobs view, Logs view
分析 Task 和 Actor 的 CPU 和記憶體使用率：Metrics view, Cluster view
監控 Serve application：Serve view

Job View

Job 是使用 Ray API 的 Ray 工作負載，例如 ray.init()。建議使用 Ray Job API 來提交 Job 到 Cluster。

Job Profiling

點擊 Stack Trace 或 CPU Flame Graph 可以分析 Ray Job。可以參考這份文件

Task and Actor breakdown

Task 和 Actor 的狀態，可以透過 Jobs view 來查看。預設 Tasks 和 Actors 會依照狀態分類，例如 pending, running, finished 等等。分類規則如下：

所有的 Task 和 Actor 都會被分類在一起，可以透過展開對應的 row 來查看。
Task 會依照 name 屬性分類，例如 task.options(name="<name_here>").remote()。
Child Task (nested Task) 會在 parent Task 的 row 下面。
Actor 會依照 class name 分類。
Child Actor (Actor 內部建立的 Actor) 會在 parent Actor 的 row 下面。
Actor Task (Actor 內部的 remote method) 會在對應的 Actor 下面。

Cluster View

這部份蠻直覺，就是 Ray Cluster 狀態。

Serve View

Ray Serve 是一個用來部署機器學習模型的 framework，可以參考這份文件。Serve View 可以監控 Serve application 的狀態。

實務面來看，也可能與現有的 Grafana, Prometheus 整合，可以參考這份文件 Integrating with Prometheus and Grafana。

Actor View

Actor View 可以看到 Actor 的 logs 和 Actor 是由哪個 Job 建立的。
官方文件有提到 Actor View 可以看到最多 1000 個已經結束的 Actor 的資訊，可以透過設定環境變數 RAY_DASHBOARD_MAX_ACTORS_TO_CACHE 來調整。