Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help

作者: Yuefan Cao, Xuyang Guo, Jiayan Huo, Yingyu Liang, Zhenmei Shi, Zhao Song, Jiahao Zhang, Zhen Zhuang

发布时间: 2025-03-11

来源: arxiv

研究方向: 生成模型与文本到图像生成

主要内容

该研究主要关注文本到图像生成模型中的计数能力,评估了最先进的扩散模型在遵循用户指令进行物体计数时的表现。

主要贡献

1. 提出了T2ICountBench,一个用于评估文本到图像扩散模型计数能力的基准。

2. 对多种因素(如物体数量、场景类型和风格)对计数能力的影响进行了消融研究。

3. 研究了简单提示精炼对计数性能的影响,发现其通常无法提高计数准确性。

研究方法

1. 构建了一个包含多种生成模型的基准,包括开源和私有系统。

2. 设计了一种简单的提示模板,用于评估模型的计数能力。

3. 采用了全面的人工评估过程,以确保结果的可靠性。

4. 进行了消融研究,以探究不同因素对计数能力的影响。

5. 研究了简单提示精炼对计数性能的影响。

实验结果

所有最先进的扩散模型都无法生成正确数量的对象,随着物体数量的增加,准确性显著下降。简单提示精炼通常无法提高计数准确性。

未来工作

未来研究方向包括改进基于CLIP的模型、自动提示精炼以及使用强化学习技术来提高模型的计数能力。