第十五屆 冠軍

ai-and-data
LLM 學習筆記
Penut Chen

系列文章

DAY 31

LLM Note Day 31 - Flash Attention

簡介 最近 Hugging Face Transformers 整合了 Flash Attention 2,可以減少記憶體消耗並提昇模型運算的速度,且使用方式非...

DAY 32

LLM Note Day 32 - AutoGPTQ

簡介 GPTQ 是透過 Post-Training 的方式對模型進行量化,其準確率與速度通常比 bitsandbytes (BNB) 4-Bit 好一些,是個相...

DAY 33

LLM Note Day 33 - AutoAWQ

簡介 Activation-Aware Weight Quantization (AWQ) 是類似於 GPTQ 的另外一種量化方法,同樣也是透過少量的校準資料集...