SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

作者: Jintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen

发布时间: 2025-02-27

来源: arxiv

研究方向: 机器学习,自然语言处理,计算机视觉

主要内容

本文提出了SpargeAttn,这是一种通用的稀疏和量化注意力机制,旨在加速各种模型(包括语言模型、图像和视频生成模型)的推理过程,同时保持端到端性能。

主要贡献

1. 提出了一种通用的稀疏注意力机制,能够适用于各种任务和序列长度。

2. 通过预测稀疏掩码,有效地跳过了不必要的矩阵乘法计算。

3. 设计了在线softmax滤波器,进一步减少计算量。

4. 将SpargeAttn集成到SageAttention框架中,实现了进一步的加速。

5. 在多种生成任务上进行了实验,证明了SpargeAttn在速度和性能上的优势。

研究方法

1. 稀疏掩码预测

2. 在线softmax滤波器

3. SageAttention框架集成

4. Hilbert曲线排列

实验结果

实验结果表明,SpargeAttn在多种模型和任务上均能实现显著的加速,同时保持端到端性能。与全注意力机制和现有稀疏注意力方法相比,SpargeAttn在速度和性能上均有优势。

未来工作

未来可以进一步研究SpargeAttn在其他模型和任务上的应用,并探索更有效的稀疏注意力机制。