Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

作者: Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison

发布时间: 2025-03-10

来源: arxiv

研究方向: 深度学习模型压缩与优化

主要内容

该论文提出了一种名为 Entropy-Weighted Quantization (EWQ) 的新型模型量化方法,旨在解决大型语言模型 (LLM) 的部署难题。EWQ 通过分析变压器块中的熵分布,确定哪些块可以安全地进行量化,而不会造成显著的性能下降。该方法超越了架构特定的压缩方法,适用于不同规模的模型。

主要贡献

1. 提出了一种新的 Entropy-Weighted Quantization (EWQ) 方法,实现了对 LLM 的有效量化。

2. 通过分析变压器块中的熵分布,实现了对模型块的有选择性的量化。

3. EWQ 方法在不同架构和规模的模型上均取得了良好的效果,包括 1.6B 到 70B 参数的模型。

4. FastEWQ 是 EWQ 的优化版本,通过使用分类器来预测量化适宜性,从而消除了加载模型权重的需求。

5. FastEWQ 在保持 80% 分类精度的同时,实现了 O(1) 的时间复杂度,为实时部署决策提供了支持。

研究方法

1. 熵分析:通过分析变压器块中的熵分布来确定哪些块可以安全地进行量化。

2. 块选择标准:根据块的熵值对块进行排序,并对低熵块进行更激进的量化。

3. 优化算法:根据计算出的量化决策结果,将 LLM 变压器块优化地分布在部署集群中的可用机器上。

4. FastEWQ:使用分类器来预测量化适宜性,从而消除了加载模型权重的需求。

实验结果

实验结果表明,EWQ 和 FastEWQ 在 MMLU 数据集上均取得了良好的效果,与全精度模型相比,EWQ 在 MMLU 准确率方面提高了 0.5%,同时将内存使用量减少了 18%。FastEWQ 在保持 80% 分类精度的同时,实现了 O(1) 的时间复杂度。

未来工作

未来工作将包括将 EWQ 原则应用于非 Transformer 架构(例如 SSM 和 RWKV)和多模态模型,探索亚 4 位量化(2 位、1.58 位)与熵感知稀疏性的结合,以及与新兴内存技术(例如 HBM3 和 CXL)和内核级优化协同设计。