2025 iThome 鐵人賽

DAY 11

Day11 - 沒有什麼是一個GPU不能解決的......Model Parallelization

前言這一章將介紹LLM在GPU上平行化使用的方法，這章內容比較少，但標題很長XD 如果運算上有什麼資源不夠的，沒有什麼是一個GPU不能解決的，如果有的話，那...

1 Like 0 留言 3348 瀏覽

DAY 12

Day12 - 壓榨你的GPU，讓使用率up up up：Batching

前言 - 什麼是Batching？先前在 Day4 提到的吞吐量 (Throughput) 🚀 是伺服器在一定時間內可以處理的請求數量。透過增加吞吐量，可以同...

0 Like 0 留言 2506 瀏覽

DAY 13

Day13 - 壓榨完GPU換壓榨VRAM：PagedAttention

前言在 Day6 的時候我們提到當context length越長，KV cache也會越大，分配KV cache也成為一個挑戰的工作 🧠。在 Day12 學...

1 Like 0 留言 3803 瀏覽

DAY 14

Day14 - CPU還沒壓榨也壓榨一下：Offloading

前言昨天的文章中，實現作業系統的虛擬記憶體的其中一個步驟是page swapping 🔄，也就是將記憶體裡面的部分內容與硬碟做交換，以便在實體記憶體不足時，將...

1 Like 0 留言 5363 瀏覽

DAY 15

Day15 - 這次應該是壓榨讀者的腦袋：FlashAttention

前言壓榨硬體系列的技術，這章要來提到大魔王FlashAttention！👾 雖然它也是Attention演算法上的改進 🔄，不過它的初衷也是為了改善硬體設備的...

0 Like 0 留言 1760 瀏覽

DAY 16

Day16 - 模型壓縮之如何玩弄模型PART1：量化

前言這一章開始進入模型/參數層面最佳化 (Model-level / Parameter-Level Optimization) 的技術介紹，這邊主要是介紹...

0 Like 0 留言 3128 瀏覽

DAY 17

Day17 - 模型壓縮之如何玩弄模型PART2：蒸餾/剪枝/稀疏化

前言上一章中介紹了量化，它將模型從高精度轉換成低精度，來進行模型壓縮的動作，這一章會繼續介紹其他的模型壓縮方法！ 🚀📉 (圖源: DALL·E) 💧 Kno...

1 Like 0 留言 3546 瀏覽

DAY 18

Day18 - 快......還要更快：Speculative decoding

前言這一章將介紹演算法層面最佳化 (Algorithm-level Optimization) ，這其中最知名的即為Speculative Decoding...

0 Like 0 留言 4736 瀏覽

DAY 19

Day19 - 教練，我想要更長的context length......

前言這篇是最後一篇硬體加速技術理論篇了！介紹的是資料面最佳化 (Data-level Optimization) 的方法。 🚀 簡單複習一下，在很久以前的...

0 Like 0 留言 3459 瀏覽

DAY 20

Day20 - 實作之前先來聊一下系統

前言前面的章節中，我們從基礎的LLM推理知識 🧠、簡單的硬體知識 💻，一路學習到一些著名的推理加速技術原理 ⚡️。礙於技術篇即使加上一堆emoji 🎨還是很...

1 Like 0 留言 1472 瀏覽

第十六屆佳作

系列文章