Robust Latent Matters: Boosting Image Generation with Sampling Error

作者: Kai Qiu, Xiang Li, Jason Kuen, Hao Chen, Xiaohao Xu, Jiuxiang Gu, Yinyi Luo, Bhiksha Raj, Zhe Lin, Marios Savvides

发布时间: 2025-03-12

来源: arxiv

研究方向: 计算机视觉与生成模型

主要内容

该研究主要关注图像生成模型中的图像分词器,通过分析离散潜在空间质量对自回归生成模型的影响,提出了一种新的图像分词器训练方法,旨在提高图像生成质量和收敛速度。

主要贡献

1. 首次全面分析了离散潜在空间质量对自回归生成模型的影响。

2. 提出了扰动FID(pFID)这一新的分词器评估指标,用于衡量离散潜在空间鲁棒性与下游生成模型性能之间的相关性。

3. 引入了RobustTok分词器,通过使用我们的插件式扰动方法进行训练,在图像生成基准测试中取得了优异的性能。

4. 提供了广泛的实验和消融研究,以验证和分析潜在扰动在构建鲁棒离散潜在空间中的有效性。

研究方法

1. 图像分词器:使用向量量化(VQ)分词器进行图像编码。

2. 自回归生成:使用自回归模型在离散潜在空间上进行图像生成。

3. 潜在扰动:通过在分词器训练中引入扰动来增强其鲁棒性。

4. pFID:提出了新的评估指标pFID,用于衡量分词器的鲁棒性和重建质量。

5. RobustTok:使用插件式扰动方法训练的分词器,以提高图像生成质量。

实验结果

实验结果表明,与现有方法相比,RobustTok在图像生成基准测试中取得了显著的性能提升,实现了更低的gFID分数和更快的收敛速度。

未来工作

未来工作将关注将潜在扰动方法应用于连续分词器,以及进一步提高图像生成模型的质量和效率。