簡介 Activation-Aware Weight Quantization (AWQ) 是類似於 GPTQ 的另外一種量化方法,同樣也是透過少量的校準資料集...
簡介 GPTQ 是透過 Post-Training 的方式對模型進行量化,其準確率與速度通常比 bitsandbytes (BNB) 4-Bit 好一些,是個相...
簡介 量化 (Quantization) 是我們這些平民 LLM 玩家最好的夥伴,一般模型在訓練時多使用 32-Bit 或 16-Bit 的浮點數,即便是 7B...
Quantization 是目前優化模型效能很常見的手法,簡單來說就是減少浮點數的精度範圍,使得模型更快更小,而我們可以透過 Optimum 很容易辦到這件事情...
JPEG概述 Joint Photographic Expert Group在1992年被評為國際標準 適用於彩色與灰階圖片 動機 The compres...