iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
生成式 AI

Local LLM infra & Inference 一部曲 系列

此系列是筆者的工作心得和學習 Local LLM 推理的筆記,分享一些 🏗️ 基礎建設 (Infrastructure)和 🧠 LLM 推理 (Inference)的相關知識,一起在運算資源不足的狀況下創造奇蹟✨🌟,成為生成式AI的運用高手!!!

在這裡我們有:
📚 LLM 推理基礎知識
🚀 推理加速相關技術 (理論)
⚙️ Local LLM 推理加速框架 (實作)
🏢 資料中心與分散式系統

鐵人鍊成 | 共 30 篇文章 | 7 人訂閱 訂閱系列文 RSS系列文 團隊為了AI而AI
DAY 11

Day11 - 沒有什麼是一個GPU不能解決的......Model Parallelization

前言 這一章將介紹LLM在GPU上平行化使用的方法,這章內容比較少,但標題很長XD 如果運算上有什麼資源不夠的,沒有什麼是一個GPU不能解決的,如果有的話,那...

DAY 12

Day12 - 壓榨你的GPU,讓使用率up up up:Batching

前言 - 什麼是Batching? 先前在 Day4 提到的吞吐量 (Throughput) 🚀 是伺服器在一定時間內可以處理的請求數量。透過增加吞吐量,可以同...

DAY 13

Day13 - 壓榨完GPU換壓榨VRAM:PagedAttention

前言 在 Day6 的時候我們提到當context length越長,KV cache也會越大,分配KV cache也成為一個挑戰的工作 🧠。在 Day12 學...

DAY 14

Day14 - CPU還沒壓榨也壓榨一下:Offloading

前言 昨天的文章中,實現作業系統的虛擬記憶體的其中一個步驟是page swapping 🔄,也就是將記憶體裡面的部分內容與硬碟做交換,以便在實體記憶體不足時,將...

DAY 15

Day15 - 這次應該是壓榨讀者的腦袋:FlashAttention

前言 壓榨硬體系列的技術,這章要來提到大魔王FlashAttention!👾 雖然它也是Attention演算法上的改進 🔄,不過它的初衷也是為了改善硬體設備的...

DAY 16

Day16 - 模型壓縮之如何玩弄模型PART1:量化

前言 這一章開始進入 模型/參數層面最佳化 (Model-level / Parameter-Level Optimization) 的技術介紹,這邊主要是介紹...

DAY 17

Day17 - 模型壓縮之如何玩弄模型PART2:蒸餾/剪枝/稀疏化

前言 上一章中介紹了量化,它將模型從高精度轉換成低精度,來進行模型壓縮的動作,這一章會繼續介紹其他的模型壓縮方法! 🚀📉 (圖源: DALL·E) 💧 Kno...

DAY 18

Day18 - 快......還要更快:Speculative decoding

前言 這一章將介紹 演算法層面最佳化 (Algorithm-level Optimization) ,這其中最知名的即為Speculative Decoding...

DAY 19

Day19 - 教練,我想要更長的context length......

前言 這篇是最後一篇硬體加速技術理論篇了!介紹的是 資料面最佳化 (Data-level Optimization) 的方法。 🚀 簡單複習一下,在很久以前的...

DAY 20

Day20 - 實作之前先來聊一下系統

前言 前面的章節中,我們從基礎的LLM推理知識 🧠、簡單的硬體知識 💻,一路學習到一些著名的推理加速技術原理 ⚡️。 礙於技術篇即使加上一堆emoji 🎨還是很...