From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers

作者: Jiacheng Liu, Chang Zou, Yuanhuiyi Lyu, Junjie Chen, Linfeng Zhang

发布时间: 2025-03-11

来源: arxiv

研究方向: 计算机视觉与生成模型

主要内容

本文提出了一种名为TaylorSeer的新方法,用于加速扩散模型,特别是扩散变换器(DiT),以提高图像和视频合成的效率。该方法通过预测未来时间步的特征来优化特征缓存,从而减少计算需求,同时保持生成质量。

主要贡献

1. 提出了一种新的缓存-预测范式,以预测未来时间步的特征,克服了传统缓存方法的局限性。

2. 引入了TaylorSeer,利用泰勒级数展开来预测未来时间步的特征,无需额外的训练或搜索成本。

3. 在DiT、FLUX和HunyuanVideo上实现了显著的加速,同时保持了高质量的生成。

研究方法

1. Taylor级数展开

2. 多步特征逼近

3. 高阶有限差分近似

4. 特征轨迹预测

实验结果

TaylorSeer在多个图像和视频生成任务上取得了显著的加速效果,同时保持了高质量的生成。例如,在FLUX和HunyuanVideo上实现了几乎无损的加速,在DiT上实现了比之前SOTA更高的加速比。

未来工作

未来可以进一步研究TaylorSeer在更广泛的生成模型中的应用,并探索其在不同加速场景下的性能表现。此外,还可以研究如何将TaylorSeer与其他加速技术结合,以进一步提高效率和生成质量。