Infinite Leagues Under the Sea: Photorealistic 3D Underwater Terrain Generation by Latent Fractal Diffusion Models

作者: Tianyi Zhang, Weiming Zhi, Joshua Mangelson, Matthew Johnson-Roberson

发布时间: 2025-03-11

来源: arxiv

研究方向: 计算机视觉、生成模型、水下环境模拟

主要内容

本文研究如何利用深度学习技术生成逼真的水下地形场景,以解决现有生成模型在生成水下图像时缺乏真实感和多样性的问题。

主要贡献

1. 提出了一种基于扩散模型的生成方法,利用视觉基础模型提取图像特征,并通过控制潜在嵌入的分布来控制生成地形的多样性。

2. 将视觉基础模型与扩散模型相结合,从未标注的水下图像中提取语义和几何信息,生成逼真的水下场景。

3. 提出了一种基于分形嵌入的生成方法,通过控制分形嵌入的参数来生成具有空间一致性和多样性的水下地形。

4. 将生成的图像融合到3D Gaussian Splatting模型中,生成具有真实感的3D场景,并支持从任意视角渲染新图像。

研究方法

1. 深度学习:扩散模型、视觉基础模型(如DINO v2、Depth Anything v2)

2. 3D重建:3D Gaussian Splatting

3. 分形嵌入:钻石-平方算法

4. 图像生成:RePaint

5. 图像融合:3DGS模型

实验结果

实验结果表明,DreamSea能够生成具有高度多样性和逼真度的水下场景,在多个水下场景数据集上取得了良好的效果。

未来工作

未来工作将探索以下方向:1. 引入更多类型的传感器数据,提高场景的逼真度;2. 研究从部分标注数据生成逼真场景的方法;3. 将该方法应用于其他领域,如虚拟现实、机器人导航等。