Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size
作者: Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison
发布时间: 2025-03-07
来源: arxiv
研究方向: 机器学习,特别是大型语言模型(LLM)的压缩和部署
主要内容
提出了一种名为“熵加权量化(EWQ)”的新方法,用于LLM的层级别选择性量化。该方法通过分析Transformer块中的熵分布,确定哪些块可以安全地量化而不会造成性能显著下降,独立于模型架构或大小。实验结果表明,EWQ在多种架构(从1.6B到70B参数)中均表现出色,同时减少了内存使用并提高了推理速度。
主要贡献
1. 提出了一种基于熵的量化方法,可以显著减少LLM的内存使用和推理时间
2. 通过分析Transformer块中的熵分布,实现了对模型中不同层级的精细控制
3. 开发了一种快速方法FastEWQ,可以在不加载模型权重的情况下进行熵分布分析
4. 在多个LLM架构中进行了实验,证明了EWQ的有效性
研究方法
1. 熵加权量化(EWQ)
2. Transformer块分析
3. 快速熵加权量化(FastEWQ)
4. 机器学习分类器
实验结果
EWQ在MMLU基准测试中保持了与未量化模型相当的性能,同时将内存使用量减少了高达18%。FastEWQ在保持80%分类准确率的同时,实现了快速量化决策。
未来工作
未来研究方向包括将EWQ应用于非Transformer架构和多媒体模型,探索亚4位量化技术,以及与新兴内存技术和内核级优化相结合。