LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

作者: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han

发布时间: 2025-02-23 22:28:00

来源: arxiv

研究方向: 长序列大型语言模型服务

主要内容

LServe是一个高效的系统，用于加速长序列大型语言模型（LLM）的服务。它通过混合稀疏注意力机制来减少计算复杂性和内存占用，从而提高服务效率。

1. 引入了统一块稀疏注意力机制，结合了静态和动态稀疏性，显著提高了LLM服务的效率。

2. 设计了分层KV页面选择策略，动态剪枝KV页面，进一步优化内存使用。

3. 在prefilling阶段加速了LLM预填充速度，在decoding阶段实现了1.3-2.1倍的加速，同时保持了长上下文准确性。

4. 实现了静态和动态稀疏性的兼容性，并通过GPU内核融合，实现了乘法加速效果。

1. 混合稀疏注意力机制

2. 统一块稀疏注意力框架

3. 静态和动态稀疏性结合

4. 分层KV页面选择策略

5. 可重用页面选择器

6. GPU内核融合

LServe在Llama-3-8B、Minitron-4B和Llama-2-7B三个LLM上进行了测试，结果表明LServe在prefilling阶段加速了2.9倍，在decoding阶段实现了1.3-2.1倍的加速，同时保持了长上下文准确性。

未来工作可以进一步探索更有效的稀疏性模式，以及更优化的内存管理策略，以进一步提高LLM服务的效率和准确性。