Ray 可以在單機上運行,也可以在多個節點上運行,但是在多個節點上運行之前,必須先部署一個 Ray Cluster。Ray Cluster 包含一個 head node 和任意數量的 worker nodes。
ray start [OPTIONS]
除了 --node-ip-address <node_ip_address>
, --address <address>
, --port <port>
等基本設定之外,還可以用 --autoscaling-config <autoscaling_config>
來設定 auto scaing
的相關參數。
ray up [OPTIONS] CLUSTER_CONFIG_FILE
其中 CLUSTER_CONFIG_FILE 的格式與範例:
# Minimal configuration for a manually managed on-premise cluster.
# A unique identifier for the head node and workers of this cluster.
cluster_name: minimal-manual
provider:
type: local
head_ip: YOUR_HEAD_NODE_HOSTNAME
worker_ips: [WORKER_NODE_1_HOSTNAME, WORKER_NODE_2_HOSTNAME, ... ]
# How Ray will authenticate with newly launched nodes.
auth:
ssh_user: YOUR_USERNAME
# Optional if an ssh private key is necessary to ssh to the cluster.
# ssh_private_key: ~/.ssh/id_rsa
直接 attach 到 Ray Cluster 的 head node 上的 SSH session。
ray exec
可以直接在 Ray Cluster 上執行 command.ray submit
可以直接在 Ray Cluster 上執行 script.
Reference: