Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

作者: Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison

发布时间: 2025-03-07

来源: arxiv

研究方向: 机器学习,特别是大型语言模型(LLM)的压缩和部署

主要内容

提出了一种名为“熵加权量化(EWQ)”的新方法,用于LLM的层级别选择性量化。该方法通过分析Transformer块中的熵分布,确定哪些块可以安全地量化而不会造成性能显著下降,独立于模型架构或大小。实验结果表明,EWQ在多种架构(从1.6B到70B参数)中均表现出色,同时减少了内存使用并提高了推理速度。

主要贡献

1. 提出了一种基于熵的量化方法,可以显著减少LLM的内存使用和推理时间

2. 通过分析Transformer块中的熵分布,实现了对模型中不同层级的精细控制

3. 开发了一种快速方法FastEWQ,可以在不加载模型权重的情况下进行熵分布分析

4. 在多个LLM架构中进行了实验,证明了EWQ的有效性

研究方法

1. 熵加权量化(EWQ)

2. Transformer块分析

3. 快速熵加权量化(FastEWQ)

4. 机器学习分类器

实验结果

EWQ在MMLU基准测试中保持了与未量化模型相当的性能,同时将内存使用量减少了高达18%。FastEWQ在保持80%分类准确率的同时,实现了快速量化决策。

未来工作

未来研究方向包括将EWQ应用于非Transformer架构和多媒体模型,探索亚4位量化技术,以及与新兴内存技术和内核级优化相结合。