前言 最近不同的推理框架不斷地冒出,其實主流也就是那幾個XD,在選擇使用哪一個之前,應該要先定義清楚使用情境,像是給個人電腦做運算 🖥️,還是做成API ser...
🚀 vLLM介紹 vLLM是一個速度快、靈活又簡單好用的推理加速框架,主打使用PagedAttention管理kv cache,Model Paralleliz...
前言 昨天的教學中,已經學會設定基本的OpenAI-Compatible Server方法了。 簡單回顧一下,若是什麼也沒設定,預設會是使用一個GPU。 🎮 筆...
前言 第24天了!最後就在官方文件裡面撈看看還有什麼可以玩的。 ✨ 首先是安裝方式,除了之前試過的linux GPU版本安裝之外,官方文件還提供了linux C...
前言 前面講完linux的vLLM安裝使用,這次來介紹Windows版本的使用方式,筆者之前剛好借到一台windows電腦+RTX 4060 Ti * 2,就用...
前言 前面 Day7 有講過超級電腦(資料中心)和IaaS平台之間的關係 🛠️,在 Day9 提到了local LLM和雲端LLM服務的差異 ☁️⚖️,而 Da...
前言 先前在 Day10 講過了針對計算資源的分散式架構Ray ⚙️,也在 Day26 提到多個server組成cluster的概念 🌐,在這些clusters...
前言 在硬體設備、實作部署都告一段落後,最後需要做的就是監控 📊。在部署LLM推理服務後,監控是開發後最重要的其中一部分。這不僅僅是為了服務的穩定性 ⚙️,還能...
前言 接續昨天的監控介紹和 Day24 的實作篇,今天就要來介紹如何使用開源工具Prometheus和Grafana來監控vLLM的一些硬體與推理指標,最後實作...
0. 尾聲 & 未來展望 🔮🚀 終於來到最後一天,謝謝願意點進來看的讀者們>< 這30天,我們從LLM和硬體基礎知識開始學習,知道如果想要有...