SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

作者: Jintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen

发布时间: 2025-02-27

来源: arxiv

研究方向: 机器学习，自然语言处理，计算机视觉

主要内容

本文提出了SpargeAttn，这是一种通用的稀疏和量化注意力机制，旨在加速各种模型（包括语言模型、图像和视频生成模型）的推理过程，同时保持端到端性能。

1. 提出了一种通用的稀疏注意力机制，能够适用于各种任务和序列长度。

2. 通过预测稀疏掩码，有效地跳过了不必要的矩阵乘法计算。

3. 设计了在线softmax滤波器，进一步减少计算量。

4. 将SpargeAttn集成到SageAttention框架中，实现了进一步的加速。

5. 在多种生成任务上进行了实验，证明了SpargeAttn在速度和性能上的优势。

1. 稀疏掩码预测

2. 在线softmax滤波器

3. SageAttention框架集成

4. Hilbert曲线排列

实验结果表明，SpargeAttn在多种模型和任务上均能实现显著的加速，同时保持端到端性能。与全注意力机制和现有稀疏注意力方法相比，SpargeAttn在速度和性能上均有优势。

未来可以进一步研究SpargeAttn在其他模型和任务上的应用，并探索更有效的稀疏注意力机制。