Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

作者: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen

发布时间: 2025-04-02

来源: arxiv

研究方向: 计算机视觉,动态场景重建

主要内容

本文提出了一种名为Easi3R的无监督训练方法,用于从动态视频中估计分离的运动。该方法基于DUSt3R模型,通过分析注意力图来提取运动信息,并在不进行预训练或网络微调的情况下实现动态区域分割、相机姿态估计和4D密集点云重建。

主要贡献

1. 提出了一种基于注意力机制的无监督训练方法,用于动态场景重建。

2. 通过分析DUSt3R模型的注意力图,实现了动态对象分割和相机运动恢复。

3. 在不需要额外训练数据的情况下,显著提高了动态场景重建的准确性。

4. 在多个数据集上,Easi3R的性能优于基于训练的方法,证明了其有效性和鲁棒性。

研究方法

1. 基于DUSt3R模型,分析注意力层以提取运动信息。

2. 通过注意力图分解,实现动态对象分割。

3. 在注意力层中应用重加权策略,以增强点云和相机姿态重建的鲁棒性。

4. 利用全局对齐和光流估计,提高重建的准确性。

实验结果

Easi3R在动态对象分割、相机姿态估计和4D重建方面均取得了优异的性能,在多个数据集上优于现有的基于训练的方法。

未来工作

未来工作将探索以下方向:1)将Easi3R扩展到更复杂的动态场景;2)提高动态分割的准确性;3)将Easi3R与其他视觉任务相结合,如语义分割和目标跟踪。