Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving

作者: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen

发布时间: 2025-04-02

来源: arxiv

研究方向: LLM服务中的键值缓存压缩技术

主要内容

本文研究如何通过键值缓存压缩技术优化大型语言模型(LLM)的服务,主要关注如何减少内存消耗和计算成本,同时保持模型准确性。

主要贡献

1. 全面回顾了现有的键值缓存压缩算法和基准研究,并识别了性能测量中的缺失部分。

2. 实证评估了代表性的键值缓存压缩方法,揭示了影响计算效率的两个关键问题:压缩后的输出可能更长,导致端到端延迟增加。

3. 提供了工具来促进未来的键值缓存压缩研究,并便于其在生产环境中的实际部署。

研究方法

1. 文献综述

2. 实证研究

3. 性能基准测试

4. 工具开发

实验结果

实验结果表明,键值缓存压缩算法可以提高解码阶段的吞吐量,但在某些批量和提示长度下性能较差。压缩后的输出可能更长,导致端到端延迟增加。此外,键值缓存压缩算法在处理特定LLM任务时存在内在限制。

未来工作

未来研究可以关注以下方面:开发更有效的压缩算法,减少压缩后的输出长度,提高计算效率,以及针对特定任务类型进行优化。