LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

作者: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han

发布时间: 2025-02-23 22:28:00

来源: arxiv

研究方向: 长序列大型语言模型服务

主要内容

LServe是一个高效的系统,用于加速长序列大型语言模型(LLM)的服务。它通过混合稀疏注意力机制来减少计算复杂性和内存占用,从而提高服务效率。

主要贡献

1. 引入了统一块稀疏注意力机制,结合了静态和动态稀疏性,显著提高了LLM服务的效率。

2. 设计了分层KV页面选择策略,动态剪枝KV页面,进一步优化内存使用。

3. 在prefilling阶段加速了LLM预填充速度,在decoding阶段实现了1.3-2.1倍的加速,同时保持了长上下文准确性。

4. 实现了静态和动态稀疏性的兼容性,并通过GPU内核融合,实现了乘法加速效果。

研究方法

1. 混合稀疏注意力机制

2. 统一块稀疏注意力框架

3. 静态和动态稀疏性结合

4. 分层KV页面选择策略

5. 可重用页面选择器

6. GPU内核融合

实验结果

LServe在Llama-3-8B、Minitron-4B和Llama-2-7B三个LLM上进行了测试,结果表明LServe在prefilling阶段加速了2.9倍,在decoding阶段实现了1.3-2.1倍的加速,同时保持了长上下文准确性。

未来工作

未来工作可以进一步探索更有效的稀疏性模式,以及更优化的内存管理策略,以进一步提高LLM服务的效率和准确性。