Towards Superior Quantization Accuracy: A Layer-sensitive Approach

作者: Feng Zhang, Yanbin Liu, Weihua Li, Jie Lv, Xiaodan Wang, Quan Bai

发布时间: 2025-03-11

来源: arxiv

研究方向: 机器学习,量化,大型语言模型

主要内容

本文提出了一种基于层敏感性的量化方法,通过分析激活敏感性和权重分布的峰度来识别难以准确量化的层,并分配额外的内存预算,从而提高量化精度。

主要贡献

1. 探索了层激活敏感性对量化误差的影响,揭示了敏感性在模型家族及其微调变体中的稳健性。

2. 提出了一种简单的异常值检测算法,用于发现具有激活敏感性分数或峰度指标的敏感层。

3. 基于异常值检测算法,提出了SensiBoost和KurtBoost方法,在降低困惑度方面优于HQQ,最高可达9%,同时仅增加2%的内存预算。

研究方法

1. 层敏感性分析

2. 激活敏感性分数

3. 权重分布峰度

4. 异常值检测算法

5. SensiBoost和KurtBoost方法

实验结果

实验结果表明,SensiBoost和KurtBoost方法在量化精度方面优于基线方法HQQ,在LLama模型上实现了高达9%的困惑度降低,同时仅增加了2%的内存预算。

未来工作

未来研究可以扩展层敏感性分析到更广泛的Transformer架构,并探索更复杂的方法来根据计算约束动态调整量化配置。