Towards Superior Quantization Accuracy: A Layer-sensitive Approach
作者: Feng Zhang, Yanbin Liu, Weihua Li, Jie Lv, Xiaodan Wang, Quan Bai
发布时间: 2025-03-11
来源: arxiv
研究方向: 机器学习,量化,大型语言模型
主要内容
本文提出了一种基于层敏感性的量化方法,通过分析激活敏感性和权重分布的峰度来识别难以准确量化的层,并分配额外的内存预算,从而提高量化精度。
主要贡献
1. 探索了层激活敏感性对量化误差的影响,揭示了敏感性在模型家族及其微调变体中的稳健性。
2. 提出了一种简单的异常值检测算法,用于发现具有激活敏感性分数或峰度指标的敏感层。
3. 基于异常值检测算法,提出了SensiBoost和KurtBoost方法,在降低困惑度方面优于HQQ,最高可达9%,同时仅增加2%的内存预算。
研究方法
1. 层敏感性分析
2. 激活敏感性分数
3. 权重分布峰度
4. 异常值检测算法
5. SensiBoost和KurtBoost方法
实验结果
实验结果表明,SensiBoost和KurtBoost方法在量化精度方面优于基线方法HQQ,在LLama模型上实现了高达9%的困惑度降低,同时仅增加了2%的内存预算。
未来工作
未来研究可以扩展层敏感性分析到更广泛的Transformer架构,并探索更复杂的方法来根据计算约束动态调整量化配置。