Day10 - 不用再手動分配計算資源？分散式計算 Ray Serve 介紹 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 10

生成式 AI

Local LLM infra & Inference 一部曲系列第 10 篇

Day10 - 不用再手動分配計算資源？分散式計算 Ray Serve 介紹

16th鐵人賽 llm ray ray serve k8s

母湯小精靈

團隊為了AI而AI

2024-09-11 10:09:41

2429 瀏覽

分享至

前言

從這章開始，將進入推理加速相關技術的理論章節 🚀。

這些理論都已經都有被應用在一些知名框架當中，其實3分鐘就可以輕鬆應用了。但是如果客戶或面試官問說這些技術是什麼？為什麼選用這個框架？回答不出來就尷尬了，因為筆者曾經被洗臉過，所以筆者決定腳踏實地一步一步學習，讓讀者們以後不會被洗臉。

首先從 系統/硬體層面最佳化 (System-level / Hardware-Level Optimization) 開始，這一章介紹的是 針對計算資源的分散式系統 (Distributed Systems) ⚙️。

🌟 Ray是什麼？

在很多服務中，會很常聽到Ray這個名字。Ray是一個分散式計算框架，主要針對python開發者設計，用於平行和分散計算任務，可以高效管理計算資源。

🔗 與LLM應用的關係

Ray不一定只能用在LLM，但LLM的使用需要龐大的計算量，正好符合Ray Serve針對大規模計算任務去分配資源的特性。而Ray當中的Ray Data、Ray Train、Ray Tune、Ray Serve、Ray RLlib，各自有適合不同LLM任務的技術。

(圖源: Ray Docs)

像是Ray Data可以快速載入、處理、轉換數據，Ray Train可以做到深度學習模型的分散式訓練，而Ray Tune可以幫助微調時找到最佳化的參數，Ray RLlib可以用來做強化學習相關的工作。

這邊專心探討Ray Serve的部分。

Ray Serve則是一個可以將一個或多個模型部屬、建立線上推理、提供模型自動擴展和負載均衡服務的model serving library。其中它是framework-agnostic，也就是Ray Serve不依賴其他特定ML相關的的library或framework。在現在AI發展迅速的狀況下，很多相似於Ray Serve的服務可能有許多限制，像是只能在單一雲端供應商上使用。如果有做過infra的工作，會知道在基礎設施上要進行更改是非常耗時，而且很危險，出事會有很多人一起陪葬：）。而Ray Serve是通用的可擴展服務層 (general-purpose scalable serving layer)，就可以避免被特定framework或是某些vendor綁住。

筆者在官方文件翻了很久，整理了以下的介紹。

高效的API服務 ⚡

如果部署FastAPI，可以加強FastAPI的併發處理能力，可以將任務分配到多個節點上面平行處理，提高API的回應速度和吞吐量。傳統上你可能會手動設定threading和multiprocessing，現在Ray就可以幫你自動處理這些複雜的工作。

靈活擴展&資源分配 🔧

如果有多台機器，Ray自動擴展的機制可以動態地調度任務到可用的計算資源上。傳統ML系統的關鍵就是在能夠為每個模型分配正確的資源來請求負載，以節省成本。

它可以用在LLM的推理stream串流、動態批次請求 (dynamic request batching)、多個節點或GPU服務 (multi-node/multi-GPU)，以達成效能最佳化。也因為這些特性，它特別適合用在快速載入多個模型，像是任務可能會針對圖像、文字等各使用到不同的模型的狀況。

彈性開發&整合 💡

因為framework-agnostic的特性，目前Ray除了可以無縫結合FastAPI等服務，多個知名服務上也可以與它結合使用，像是Hugging Face Transformers、vLLM、langchain等等。甚至OpenAI、Cohere也有使用Ray作為他們infra分散式系統一部分的基礎。