Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving
作者: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen
发布时间: 2025-04-02
来源: arxiv
研究方向: LLM服务中的键值缓存压缩技术
主要内容
本文研究如何通过键值缓存压缩技术优化大型语言模型(LLM)的服务,主要关注如何减少内存消耗和计算成本,同时保持模型准确性。
主要贡献
1. 全面回顾了现有的键值缓存压缩算法和基准研究,并识别了性能测量中的缺失部分。
2. 实证评估了代表性的键值缓存压缩方法,揭示了影响计算效率的两个关键问题:压缩后的输出可能更长,导致端到端延迟增加。
3. 提供了工具来促进未来的键值缓存压缩研究,并便于其在生产环境中的实际部署。
研究方法
1. 文献综述
2. 实证研究
3. 性能基准测试
4. 工具开发
实验结果
实验结果表明,键值缓存压缩算法可以提高解码阶段的吞吐量,但在某些批量和提示长度下性能较差。压缩后的输出可能更长,导致端到端延迟增加。此外,键值缓存压缩算法在处理特定LLM任务时存在内在限制。
未来工作
未来研究可以关注以下方面:开发更有效的压缩算法,减少压缩后的输出长度,提高计算效率,以及针对特定任务类型进行优化。