SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference
作者: Jintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen
发布时间: 2025-02-27
来源: arxiv
研究方向: 机器学习,自然语言处理,计算机视觉
主要内容
本文提出了SpargeAttn,这是一种通用的稀疏和量化注意力机制,旨在加速各种模型(包括语言模型、图像和视频生成模型)的推理过程,同时保持端到端性能。
主要贡献
1. 提出了一种通用的稀疏注意力机制,能够适用于各种任务和序列长度。
2. 通过预测稀疏掩码,有效地跳过了不必要的矩阵乘法计算。
3. 设计了在线softmax滤波器,进一步减少计算量。
4. 将SpargeAttn集成到SageAttention框架中,实现了进一步的加速。
5. 在多种生成任务上进行了实验,证明了SpargeAttn在速度和性能上的优势。
研究方法
1. 稀疏掩码预测
2. 在线softmax滤波器
3. SageAttention框架集成
4. Hilbert曲线排列
实验结果
实验结果表明,SpargeAttn在多种模型和任务上均能实现显著的加速,同时保持端到端性能。与全注意力机制和现有稀疏注意力方法相比,SpargeAttn在速度和性能上均有优势。
未来工作
未来可以进一步研究SpargeAttn在其他模型和任务上的应用,并探索更有效的稀疏注意力机制。