第十六屆 佳作

generative-ai
Local LLM infra & Inference 一部曲
母湯小精靈

系列文章

DAY 21

Day21- 各式各樣的推理框架介紹

前言 最近不同的推理框架不斷地冒出,其實主流也就是那幾個XD,在選擇使用哪一個之前,應該要先定義清楚使用情境,像是給個人電腦做運算 🖥️,還是做成API ser...

DAY 22

Day22 - vLLM實作篇PART1:安裝到推理 (Linux version)

🚀 vLLM介紹 vLLM是一個速度快、靈活又簡單好用的推理加速框架,主打使用PagedAttention管理kv cache,Model Paralleliz...

DAY 23

Day23 - vLLM實作篇PART2:模型平行化 / 預測推理 / 其他設定

前言 昨天的教學中,已經學會設定基本的OpenAI-Compatible Server方法了。 簡單回顧一下,若是什麼也沒設定,預設會是使用一個GPU。 🎮 筆...

DAY 24

Day24 - vLLM實作篇PART3:FastAPI與vLLM docs尋寶之旅

前言 第24天了!最後就在官方文件裡面撈看看還有什麼可以玩的。 ✨ 首先是安裝方式,除了之前試過的linux GPU版本安裝之外,官方文件還提供了linux C...

DAY 25

Day25 - vLLM實作篇PART4:安裝到推理 (Windows version)

前言 前面講完linux的vLLM安裝使用,這次來介紹Windows版本的使用方式,筆者之前剛好借到一台windows電腦+RTX 4060 Ti * 2,就用...

DAY 26

Day26 - Infra篇PART1:多台server如何一起工作?

前言 前面 Day7 有講過超級電腦(資料中心)和IaaS平台之間的關係 🛠️,在 Day9 提到了local LLM和雲端LLM服務的差異 ☁️⚖️,而 Da...

DAY 27

Day27 - Infra篇PART2:針對服務的分散式系統

前言 先前在 Day10 講過了針對計算資源的分散式架構Ray ⚙️,也在 Day26 提到多個server組成cluster的概念 🌐,在這些clusters...

DAY 28

Day28 - 從服務部署到維運:DevOps & 服務監控

前言 在硬體設備、實作部署都告一段落後,最後需要做的就是監控 📊。在部署LLM推理服務後,監控是開發後最重要的其中一部分。這不僅僅是為了服務的穩定性 ⚙️,還能...

DAY 29

Day29 - vLLM實作篇PART5:監控vLLM

前言 接續昨天的監控介紹和 Day24 的實作篇,今天就要來介紹如何使用開源工具Prometheus和Grafana來監控vLLM的一些硬體與推理指標,最後實作...

DAY 30

Day30 - 尾聲 & 未來展望:LLM畫大餅之旅心得

0. 尾聲 & 未來展望 🔮🚀 終於來到最後一天,謝謝願意點進來看的讀者們>< 這30天,我們從LLM和硬體基礎知識開始學習,知道如果想要有...