簡介 量化 (Quantization) 是我們這些平民 LLM 玩家最好的夥伴,一般模型在訓練時多使用 32-Bit 或 16-Bit 的浮點數,即便是 7B...
JPEG概述 Joint Photographic Expert Group在1992年被評為國際標準 適用於彩色與灰階圖片 動機 The compres...
簡介 Activation-Aware Weight Quantization (AWQ) 是類似於 GPTQ 的另外一種量化方法,同樣也是透過少量的校準資料集...
Quantization 是目前優化模型效能很常見的手法,簡單來說就是減少浮點數的精度範圍,使得模型更快更小,而我們可以透過 Optimum 很容易辦到這件事情...
簡介 GPTQ 是透過 Post-Training 的方式對模型進行量化,其準確率與速度通常比 bitsandbytes (BNB) 4-Bit 好一些,是個相...
llama.cpp 是個相當受歡迎的語言模型推論框架,但一些相關的環境配置、編譯手法稍微困難一點,若不是有點技術底,一開始玩起來是頗痛苦。 好在後來作者都會定期...
簡介 昨天 Hugging Face Transformers 發布 v4.42 版,其中 Quantized KV Cache 這個功能特別吸引我,看到量化就...
前言 這一章開始進入 模型/參數層面最佳化 (Model-level / Parameter-Level Optimization) 的技術介紹,這邊主要是介紹...