Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

作者: Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison

发布时间: 2025-03-07

来源: arxiv

研究方向: 机器学习，特别是大型语言模型（LLM）的压缩和部署

主要内容

提出了一种名为“熵加权量化（EWQ）”的新方法，用于LLM的层级别选择性量化。该方法通过分析Transformer块中的熵分布，确定哪些块可以安全地量化而不会造成性能显著下降，独立于模型架构或大小。实验结果表明，EWQ在多种架构（从1.6B到70B参数）中均表现出色，同时减少了内存使用并提高了推理速度。

主要贡献

1. 提出了一种基于熵的量化方法，可以显著减少LLM的内存使用和推理时间

2. 通过分析Transformer块中的熵分布，实现了对模型中不同层级的精细控制

3. 开发了一种快速方法FastEWQ，可以在不加载模型权重的情况下进行熵分布分析

4. 在多个LLM架构中进行了实验，证明了EWQ的有效性

研究方法

1. 熵加权量化（EWQ）

2. Transformer块分析

3. 快速熵加权量化（FastEWQ）

4. 机器学习分类器

实验结果

EWQ在MMLU基准测试中保持了与未量化模型相当的性能，同时将内存使用量减少了高达18%。FastEWQ在保持80%分类准确率的同时，实现了快速量化决策。

未来工作

未来研究方向包括将EWQ应用于非Transformer架构和多媒体模型，探索亚4位量化技术，以及与新兴内存技术和内核级优化相结合。