Robust Latent Matters: Boosting Image Generation with Sampling Error
作者: Kai Qiu, Xiang Li, Jason Kuen, Hao Chen, Xiaohao Xu, Jiuxiang Gu, Yinyi Luo, Bhiksha Raj, Zhe Lin, Marios Savvides
发布时间: 2025-03-12
来源: arxiv
研究方向: 计算机视觉与生成模型
主要内容
该研究主要关注图像生成模型中的图像分词器,通过分析离散潜在空间质量对自回归生成模型的影响,提出了一种新的图像分词器训练方法,旨在提高图像生成质量和收敛速度。
主要贡献
1. 首次全面分析了离散潜在空间质量对自回归生成模型的影响。
2. 提出了扰动FID(pFID)这一新的分词器评估指标,用于衡量离散潜在空间鲁棒性与下游生成模型性能之间的相关性。
3. 引入了RobustTok分词器,通过使用我们的插件式扰动方法进行训练,在图像生成基准测试中取得了优异的性能。
4. 提供了广泛的实验和消融研究,以验证和分析潜在扰动在构建鲁棒离散潜在空间中的有效性。
研究方法
1. 图像分词器:使用向量量化(VQ)分词器进行图像编码。
2. 自回归生成:使用自回归模型在离散潜在空间上进行图像生成。
3. 潜在扰动:通过在分词器训练中引入扰动来增强其鲁棒性。
4. pFID:提出了新的评估指标pFID,用于衡量分词器的鲁棒性和重建质量。
5. RobustTok:使用插件式扰动方法训练的分词器,以提高图像生成质量。
实验结果
实验结果表明,与现有方法相比,RobustTok在图像生成基准测试中取得了显著的性能提升,实现了更低的gFID分数和更快的收敛速度。
未来工作
未来工作将关注将潜在扰动方法应用于连续分词器,以及进一步提高图像生成模型的质量和效率。