Robust Latent Matters: Boosting Image Generation with Sampling Error

作者: Kai Qiu, Xiang Li, Jason Kuen, Hao Chen, Xiaohao Xu, Jiuxiang Gu, Yinyi Luo, Bhiksha Raj, Zhe Lin, Marios Savvides

发布时间: 2025-03-12

来源: arxiv

研究方向: 计算机视觉与生成模型

主要内容

该研究主要关注图像生成模型中的图像分词器，通过分析离散潜在空间质量对自回归生成模型的影响，提出了一种新的图像分词器训练方法，旨在提高图像生成质量和收敛速度。

1. 首次全面分析了离散潜在空间质量对自回归生成模型的影响。

2. 提出了扰动FID（pFID）这一新的分词器评估指标，用于衡量离散潜在空间鲁棒性与下游生成模型性能之间的相关性。

3. 引入了RobustTok分词器，通过使用我们的插件式扰动方法进行训练，在图像生成基准测试中取得了优异的性能。

4. 提供了广泛的实验和消融研究，以验证和分析潜在扰动在构建鲁棒离散潜在空间中的有效性。

1. 图像分词器：使用向量量化（VQ）分词器进行图像编码。

2. 自回归生成：使用自回归模型在离散潜在空间上进行图像生成。

3. 潜在扰动：通过在分词器训练中引入扰动来增强其鲁棒性。

4. pFID：提出了新的评估指标pFID，用于衡量分词器的鲁棒性和重建质量。

5. RobustTok：使用插件式扰动方法训练的分词器，以提高图像生成质量。

实验结果表明，与现有方法相比，RobustTok在图像生成基准测试中取得了显著的性能提升，实现了更低的gFID分数和更快的收敛速度。

未来工作将关注将潜在扰动方法应用于连续分词器，以及进一步提高图像生成模型的质量和效率。