NFIG: Autoregressive Image Generation with Next-Frequency Prediction

作者: Zhihao Huang, Xi Qiu, Yukuo Ma, Yifu Zhou, Chi Zhang, Xuelong Li

发布时间: 2025-03-11

来源: arxiv

研究方向: 计算机视觉与图像生成

主要内容

该论文提出了一种名为NFIG（Next-Frequency Image Generation）的图像生成框架，该框架通过将图像生成过程分解为多个频率引导的阶段来解决传统自回归图像生成模型在捕获长距离依赖、管理计算成本以及定义有意义自回归序列等方面的挑战。

1. 提出了一种新的图像生成框架NFIG，利用图像的频率谱来指导自回归过程。

2. 设计了FR-VAE（Frequency-guided Residual-quantized VAE）作为图像标记器，将低频和高频成分分离，以编码全局结构和保留局部细节。

3. 通过实验证明了NFIG在图像生成质量方面达到了最先进水平，在ImageNet-256基准测试中实现了更好的性能（FID: 2.81），同时具有更高的效率（比VAR-d20快1.25倍）。

1. 频率引导的自回归图像生成：首先生成低频图像以捕获全局结构，然后逐渐添加高频细节。

2. FR-VAE：使用VQ-GAN框架，通过频率引导的残差量化方法来表示图像。

3. 自回归图像生成：采用仅解码器的Transformer框架，进行自适应层归一化和块状因果注意力机制，实现从低频到高频的图像预测。

NFIG在ImageNet 256x256图像生成任务上取得了最佳性能，gFID和IS指标均优于其他自回归模型，同时与GAN和扩散模型等其他生成模型相比，NFIG在保持高质量的同时，具有更高的效率。

论文作者计划将他们的代码公开，以促进未来研究，并可能探索将频率域知识应用于其他图像生成任务和模型。