iT邦幫忙

2023 iThome 鐵人賽

DAY 18
1
AI & Data

MLOps/LLMOps - 從零開始系列 第 18

Day18 - MLOps 自架環境之二: Ray Cluster 基本觀念與架構

  • 分享至 

  • xImage
  •  

Ray Cluster

  • 一個 Ray Cluster 需要一個 Head Node 與多個 Worker Node
  • Head Node 負責管理 Worker Node,透過 autoscaler 來自動調整 Worker Node 的數量
  • 基本上就是 follow Kubernetes 的 Pod 架構
    https://ithelp.ithome.com.tw/upload/images/20231003/20091643p33SrUP8MA.png

Head Node

  • Head Node 會有一個 Ray Cluster 的 Controller,負責管理 Worker Node

Worker Node

  • 負責執行 Ray Task,並將結果回傳給 Head Node

Autoscaling

  • 在 head node 上面的一個 process,如果需求的 Ray workload 超過現有的 Ray cluster 能力,則會自動增加 worker node。反之就會自動減少 worker node。
  • autoscaler 只會根據 task 與 actor 的需求來調整 worker node 的數量,而不是根據 application metrics 或是 physical resource utilization 來調整 worker node 的數量。

Ray Jobs

執行 Ray Job 的方式有兩種

  • 透過 Ray Jobs API 執行 (建議方式)
  • 在任一 node (worker node or head node) 上執行 ray start --head 執行 script

Ray Job API

https://ithelp.ithome.com.tw/upload/images/20231003/20091643kbvRhLs38S.png

Reference:


上一篇
Day17 - MLOps 自架環境之二: Ray Cluster 簡介
下一篇
Day19 - Ray Cluster 安裝之一: 基礎環境準備
系列文
MLOps/LLMOps - 從零開始30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言