Frequency Autoregressive Image Generation with Continuous Tokens

作者: Hu Yu, Hao Luo, Hangjie Yuan, Yu Rong, Feng Zhao

发布时间: 2025-03-10

来源: arxiv

研究方向: 计算机视觉与图像生成

主要内容

本文研究了基于自回归(AR)模型的图像生成方法,针对传统AR模型在图像生成中的不足,提出了频率递增自回归(FAR)模型,并使用连续标记器进行实例化。

主要贡献

1. 提出了FAR模型,利用图像数据的频谱依赖性,满足AR模型的因果性要求,同时保留图像数据的空间局部性,提高了采样效率。

2. 将FAR模型与连续标记器相结合,提出了一系列技术来解决优化挑战,并提高训练和推理的效率。

3. 在ImageNet数据集上进行了全面实验,证明了FAR的效率和可扩展性,并进一步将FAR扩展到文本到图像生成,验证了其潜力。

研究方法

1. 使用频率递增自回归(FAR)模型进行图像生成,利用频谱依赖性进行自回归生成。

2. 使用连续标记器来表示图像数据,减少信息损失。

3. 提出简化分布模型、频率感知训练损失策略、掩码机制和频率感知扩散采样等技术来提高训练和推理效率。

实验结果

实验结果表明,FAR在ImageNet数据集上取得了优异的性能,与现有方法相比,在生成质量和效率方面都有显著提升。在文本到图像生成任务中,FAR也表现出良好的效果,具有更小的模型尺寸、数据规模、训练计算量和推理步骤。

未来工作

未来可以进一步研究FAR模型在其他图像生成任务中的应用,例如视频生成和3D模型生成。此外,还可以探索将FAR模型与其他图像生成技术相结合,以进一步提高生成质量和效率。