Towards Superior Quantization Accuracy: A Layer-sensitive Approach

作者: Feng Zhang, Yanbin Liu, Weihua Li, Jie Lv, Xiaodan Wang, Quan Bai

发布时间: 2025-03-11

来源: arxiv

研究方向: 机器学习，量化，大型语言模型

主要内容

本文提出了一种基于层敏感性的量化方法，通过分析激活敏感性和权重分布的峰度来识别难以准确量化的层，并分配额外的内存预算，从而提高量化精度。

1. 探索了层激活敏感性对量化误差的影响，揭示了敏感性在模型家族及其微调变体中的稳健性。

2. 提出了一种简单的异常值检测算法，用于发现具有激活敏感性分数或峰度指标的敏感层。

3. 基于异常值检测算法，提出了SensiBoost和KurtBoost方法，在降低困惑度方面优于HQQ，最高可达9%，同时仅增加2%的内存预算。

1. 层敏感性分析

2. 激活敏感性分数

3. 权重分布峰度

4. 异常值检测算法

5. SensiBoost和KurtBoost方法

实验结果表明，SensiBoost和KurtBoost方法在量化精度方面优于基线方法HQQ，在LLama模型上实现了高达9%的困惑度降低，同时仅增加了2%的内存预算。

未来研究可以扩展层敏感性分析到更广泛的Transformer架构，并探索更复杂的方法来根据计算约束动态调整量化配置。