iT邦幫忙

quantization相關文章
共有 8 則文章
鐵人賽 生成式 AI DAY 16

技術 Day16 - 模型壓縮之如何玩弄模型PART1:量化

前言 這一章開始進入 模型/參數層面最佳化 (Model-level / Parameter-Level Optimization) 的技術介紹,這邊主要是介紹...

技術 在 Colab 上無痛產出 llama.cpp gguf 量化模型

llama.cpp 是個相當受歡迎的語言模型推論框架,但一些相關的環境配置、編譯手法稍微困難一點,若不是有點技術底,一開始玩起來是頗痛苦。 好在後來作者都會定期...

技術 使用 HF Transformers 對 KV 快取量化

簡介 昨天 Hugging Face Transformers 發布 v4.42 版,其中 Quantized KV Cache 這個功能特別吸引我,看到量化就...

鐵人賽 AI & Data
LLM 學習筆記 系列 第 33

技術 LLM Note Day 33 - AutoAWQ

簡介 Activation-Aware Weight Quantization (AWQ) 是類似於 GPTQ 的另外一種量化方法,同樣也是透過少量的校準資料集...

鐵人賽 AI & Data
LLM 學習筆記 系列 第 32

技術 LLM Note Day 32 - AutoGPTQ

簡介 GPTQ 是透過 Post-Training 的方式對模型進行量化,其準確率與速度通常比 bitsandbytes (BNB) 4-Bit 好一些,是個相...

鐵人賽 AI & Data DAY 14
LLM 學習筆記 系列 第 14

技術 LLM Note Day 14 - 量化 Quantization

簡介 量化 (Quantization) 是我們這些平民 LLM 玩家最好的夥伴,一般模型在訓練時多使用 32-Bit 或 16-Bit 的浮點數,即便是 7B...

鐵人賽 AI & Data DAY 28

技術 # Day28- Hugging Face Optimum Quantization

Quantization 是目前優化模型效能很常見的手法,簡單來說就是減少浮點數的精度範圍,使得模型更快更小,而我們可以透過 Optimum 很容易辦到這件事情...

技術 Image Compression - JPEG

JPEG概述 Joint Photographic Expert Group在1992年被評為國際標準 適用於彩色與灰階圖片 動機 The compres...