Simulating the Real World: A Unified Survey of Multimodal Generative Models
作者: Yuqi Hu, Longguang Wang, Xian Liu, Ling-Hao Chen, Yuwei Guo, Yukai Shi, Ce Liu, Anyi Rao, Zeyu Wang, Hui Xiong
发布时间: 2025-03-07
来源: arxiv
研究方向: 多模态生成模型与真实世界模拟
主要内容
本文综述了多模态生成模型在真实世界模拟中的应用,涵盖了从二维图像生成到视频、三维和四维生成的整个维度增长过程。作者从数据维度增长的角度,系统地分析了不同模态生成模型的方法、数据集、评估指标和未来研究方向。
主要贡献
1. 首次系统地统一了二维、视频、三维和四维生成的研究,为该领域提供了一个结构化和全面的概述。
2. 综述了常用数据集及其特性,以及相应的评估指标。
3. 确定了开放的研究挑战,旨在为该领域的进一步探索提供指导。
研究方法
1. 生成对抗网络(GANs)
2. 变分自编码器(VAEs)
3. 自回归模型(AR Models)
4. 归一化流(NFs)
5. 扩散模型
6. 文本到图像生成
7. 文本到视频生成
8. 图像到三维生成
9. 视频到三维生成
10. 四维生成
实验结果
本文通过多个实例和案例展示了不同模态生成模型在真实世界模拟中的应用,并讨论了它们的优缺点。
未来工作
未来的研究方向包括多模态生成、时间一致性和连贯性、物理和动力学建模、跨场景泛化、可控制和可编辑性以及高计算成本等。