前言 這一章將介紹LLM在GPU上平行化使用的方法,這章內容比較少,但標題很長XD 如果運算上有什麼資源不夠的,沒有什麼是一個GPU不能解決的,如果有的話,那...
前言 - 什麼是Batching? 先前在 Day4 提到的吞吐量 (Throughput) 🚀 是伺服器在一定時間內可以處理的請求數量。透過增加吞吐量,可以同...
前言 在 Day6 的時候我們提到當context length越長,KV cache也會越大,分配KV cache也成為一個挑戰的工作 🧠。在 Day12 學...
前言 昨天的文章中,實現作業系統的虛擬記憶體的其中一個步驟是page swapping 🔄,也就是將記憶體裡面的部分內容與硬碟做交換,以便在實體記憶體不足時,將...
前言 壓榨硬體系列的技術,這章要來提到大魔王FlashAttention!👾 雖然它也是Attention演算法上的改進 🔄,不過它的初衷也是為了改善硬體設備的...
前言 這一章開始進入 模型/參數層面最佳化 (Model-level / Parameter-Level Optimization) 的技術介紹,這邊主要是介紹...
前言 上一章中介紹了量化,它將模型從高精度轉換成低精度,來進行模型壓縮的動作,這一章會繼續介紹其他的模型壓縮方法! 🚀📉 (圖源: DALL·E) 💧 Kno...
前言 這一章將介紹 演算法層面最佳化 (Algorithm-level Optimization) ,這其中最知名的即為Speculative Decoding...
前言 這篇是最後一篇硬體加速技術理論篇了!介紹的是 資料面最佳化 (Data-level Optimization) 的方法。 🚀 簡單複習一下,在很久以前的...
前言 前面的章節中,我們從基礎的LLM推理知識 🧠、簡單的硬體知識 💻,一路學習到一些著名的推理加速技術原理 ⚡️。 礙於技術篇即使加上一堆emoji 🎨還是很...