TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

作者: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan

发布时间: 2025-03-10

来源: arxiv

研究方向: 计算机视觉，视频生成，三维重建

主要内容

该研究提出了一种名为TrajectoryCrafter的新方法，用于对单目视频中的摄像机轨迹进行重定向。通过将确定性的视图变换与随机的内容生成分离，该方法实现了对用户指定摄像机轨迹的精确控制。它使用了一种新型的双流条件视频扩散模型，该模型同时整合点云渲染和源视频作为条件，以确保精确的视图变换和连贯的4D内容生成。

主要贡献

1. 提出了一种名为TrajectoryCrafter的新方法，用于重定向单目视频中的摄像机轨迹。

2. 提出了一个双流条件机制，该机制融合了点云渲染和源视频，以确保精确的轨迹控制和连贯的4D生成。

3. 制定了一种新的数据策略，结合了动态的Web级单目视频数据集和静态的多视图资源，增强了模型在多样化场景中的泛化能力和鲁棒性。

研究方法

1. 使用深度估计将源视频提升为动态点云。

2. 使用点云渲染和源视频作为条件，通过双流条件视频扩散模型生成高保真视频。

3. 采用混合训练数据集，结合Web级单目视频数据集和静态多视图数据集。

4. 引入了双重重投影策略，通过将源视频重投影到新视图并反向重投影，模拟点云渲染。

实验结果

在多视图和大规模单目视频数据集上进行了广泛的评估，结果表明，该方法在生成具有新颖摄像机轨迹的高保真视频方面表现出优异的性能，并且能够跨多样化场景进行鲁棒泛化。消融研究也证实了双流条件和数据集编制策略的有效性。

未来工作

未来工作可能包括扩展模型以处理更大范围的轨迹，改进深度估计的准确性，以及探索更高效的推理方法以降低计算开销。