Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving

作者: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen

发布时间: 2025-04-02

来源: arxiv

研究方向: LLM服务中的键值缓存压缩技术

主要内容

本文研究如何通过键值缓存压缩技术优化大型语言模型（LLM）的服务，主要关注如何减少内存消耗和计算成本，同时保持模型准确性。

1. 全面回顾了现有的键值缓存压缩算法和基准研究，并识别了性能测量中的缺失部分。

2. 实证评估了代表性的键值缓存压缩方法，揭示了影响计算效率的两个关键问题：压缩后的输出可能更长，导致端到端延迟增加。

3. 提供了工具来促进未来的键值缓存压缩研究，并便于其在生产环境中的实际部署。

1. 文献综述

2. 实证研究

3. 性能基准测试

4. 工具开发

实验结果表明，键值缓存压缩算法可以提高解码阶段的吞吐量，但在某些批量和提示长度下性能较差。压缩后的输出可能更长，导致端到端延迟增加。此外，键值缓存压缩算法在处理特定LLM任务时存在内在限制。

未来研究可以关注以下方面：开发更有效的压缩算法，减少压缩后的输出长度，提高计算效率，以及针对特定任务类型进行优化。