LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention
作者: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han
发布时间: 2025-02-23 22:28:00
来源: arxiv
研究方向: 长序列大型语言模型服务
主要内容
LServe是一个高效的系统,用于加速长序列大型语言模型(LLM)的服务。它通过混合稀疏注意力机制来减少计算复杂性和内存占用,从而提高服务效率。
主要贡献
1. 引入了统一块稀疏注意力机制,结合了静态和动态稀疏性,显著提高了LLM服务的效率。
2. 设计了分层KV页面选择策略,动态剪枝KV页面,进一步优化内存使用。
3. 在prefilling阶段加速了LLM预填充速度,在decoding阶段实现了1.3-2.1倍的加速,同时保持了长上下文准确性。
4. 实现了静态和动态稀疏性的兼容性,并通过GPU内核融合,实现了乘法加速效果。
研究方法
1. 混合稀疏注意力机制
2. 统一块稀疏注意力框架
3. 静态和动态稀疏性结合
4. 分层KV页面选择策略
5. 可重用页面选择器
6. GPU内核融合
实验结果
LServe在Llama-3-8B、Minitron-4B和Llama-2-7B三个LLM上进行了测试,结果表明LServe在prefilling阶段加速了2.9倍,在decoding阶段实现了1.3-2.1倍的加速,同时保持了长上下文准确性。
未来工作
未来工作可以进一步探索更有效的稀疏性模式,以及更优化的内存管理策略,以进一步提高LLM服务的效率和准确性。