WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

作者: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan

发布时间: 2025-03-11

来源: arxiv

研究方向: 文本到图像生成(Text-to-Image, T2I)模型的世界知识与语义理解评估

主要内容

本文提出了一种名为WISE(World Knowledge-Informed Semantic Evaluation)的评估基准,旨在全面评估T2I模型在语义理解和世界知识整合方面的能力。WISE通过1000个精心设计的提示,涵盖了25个子领域,包括文化常识、时空推理和自然科学,以此来挑战模型对复杂语义的理解和图像生成能力。

主要贡献

1. 提出了WISE评估基准,该基准专注于评估T2I模型的世界知识与语义理解能力。

2. 引入了WiScore,这是一种新的复合指标,用于评估图像与世界知识之间的对齐。

3. 证明了现有T2I模型在整合和应用世界知识方面存在显著缺陷,即使是统一的多模态模型也表现不佳。

4. 评估了20个T2I模型,包括10个专用T2I模型和10个统一的多模态模型,发现专用T2I模型在整体WiScore上优于统一的多模态模型。

5. 揭示了统一多模态模型在理解世界和生成图像之间的差距,表明当前将LLM集成到统一多模态模型中的方法尚未完全释放其图像生成的潜力。

研究方法

1. 设计了一个包含1000个提示的WISE基准,这些提示旨在评估T2I模型在不同领域的知识理解和应用能力。

2. 引入了WiScore,这是一个基于一致性、现实感和美学质量的复合指标。

3. 使用了GPT-4o作为评估者,以评估T2I模型的表现。

4. 对20个T2I模型进行了实验,包括10个专用T2I模型和10个统一的多模态模型,并比较了它们的性能。

5. 通过重写WISE基准中的提示,进一步评估了T2I模型处理世界知识的能力。

实验结果

实验结果表明,现有T2I模型在整合和应用世界知识方面存在显著缺陷,尤其是在自然科学和时空推理领域。专用T2I模型在整体WiScore上优于统一的多模态模型。此外,重写提示的实验表明,即使提示简化,模型的性能也有显著提高,但仍然无法达到完全满意的世界知识理解水平。

未来工作

未来的研究可以关注以下方面:改进模型训练方法,以更好地整合和应用世界知识;探索如何将LLM的强大理解能力与T2I模型的图像生成能力更好地结合;开发更全面的评估基准,以更准确地评估T2I模型在不同领域的表现。