SQuat: Subspace-orthogonal KV Cache Quantization
作者: Hao Wang, Ligong Han, Kai Xu, Akash Srivastava
发布时间: 2025-04-02
来源: arxiv
研究方向: 人工智能,大型语言模型(LLM)的推理优化
主要内容
本文研究如何通过量化和压缩关键值(KV)缓存来优化LLM的推理效率,从而减少内存使用并提高吞吐量。
主要贡献
1. 提出了一种名为SQuat的子空间正交KV缓存量化方法,通过构造一个由查询张量生成的子空间来捕获最关键的任务相关信息。
2. 在量化关键张量时,SQuat确保量化误差与该子空间正交,从而最小化量化误差对注意力机制输出的影响。
3. SQuat不需要模型微调,也不需要额外的离线学习校准数据集。
4. 通过数值实验表明,SQuat可以减少峰值内存使用量2.17× ~ 2.82×,提高吞吐量2.45× ~ 3.60×,并比现有的KV缓存量化算法获得更好的基准分数。
研究方法
1. 构造一个由查询张量生成的子空间,用于捕获最关键的任务相关信息。
2. 在量化关键张量时,确保量化误差与该子空间正交。
3. 使用迭代算法来近似解决优化问题,该算法在每次迭代中量化关键张量的一个元素(或一组元素),然后更新剩余元素。
4. 使用奇异值分解(SVD)来确定查询张量所在的子空间。
5. 通过量化算法来量化KV缓存中的关键张量。
实验结果
SQuat在多个LLM和多个基准测试任务上进行了评估,结果表明它比现有的无调优基线方法具有更好的性能。
未来工作
未来可以探索以下方向:研究如何量化压缩的潜在向量,并理解量化误差对模型性能的影响;从理论上研究通过量化或剪枝减少KV缓存大小对延迟、内存使用和吞吐量的影响;确定特定任务的压缩率与模型性能之间的最佳权衡。