2025 iThome 鐵人賽

ai-and-data

LLM 學習筆記

DAY 31

簡介最近 Hugging Face Transformers 整合了 Flash Attention 2，可以減少記憶體消耗並提昇模型運算的速度，且使用方式非...

DAY 32

簡介 GPTQ 是透過 Post-Training 的方式對模型進行量化，其準確率與速度通常比 bitsandbytes (BNB) 4-Bit 好一些，是個相...

DAY 33

簡介 Activation-Aware Weight Quantization (AWQ) 是類似於 GPTQ 的另外一種量化方法，同樣也是透過少量的校準資料集...