CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning

作者: Kaiqiang Xiong, Rui Peng, Zhe Zhang, Tianxing Feng, Jianbo Jiao, Feng Gao, Ronggang Wang

发布时间: 2025-03-12

来源: arxiv

研究方向: 计算机视觉,多视图立体(MVS),无监督学习

主要内容

本文提出了一种名为CL-MVSNet的无监督多视图立体(MVS)方法,旨在解决传统基于光度一致性的无监督MVS方法在难以区分区域和视点相关效应(如低纹理区域和反射)上的局限性。该方法通过集成图像级和场景级对比学习分支,以及引入新的光度一致性损失,提高了MVS的鲁棒性和泛化能力。

主要贡献

1. 提出了一种图像级对比一致性损失,鼓励模型在难以区分区域中更多地考虑上下文信息。

2. 提出了一种场景级对比一致性损失,提高了模型对视点相关效应的鲁棒性。

3. 提出了一种基于0.5范数的光度一致性损失,使模型更关注准确点,从而提高了重建的准确性。

4. 在DTU和Tanks&Temples基准测试中,CL-MVSNet在所有端到端无监督MVS框架中取得了最先进的性能,并且在没有微调的情况下优于其监督版本。

研究方法

1. 无监督MVS框架,包括特征提取、成本体构建、成本体正则化和深度回归。

2. 图像级对比学习,通过应用遮挡掩码来模拟局部光度一致性失败的情况。

3. 场景级对比学习,通过将参考图像与随机选择的同一场景中的图像组合来生成硬正样本。

4. 基于0.5范数的光度一致性损失,用于强调对准确点的惩罚,从而提高重建的准确性。

实验结果

在DTU和Tanks&Temples基准测试中,CL-MVSNet在所有端到端无监督MVS框架中取得了最先进的性能,并且在没有微调的情况下优于其监督版本。实验结果表明,CL-MVSNet在难以区分区域和视点相关效应方面具有更好的鲁棒性和泛化能力。

未来工作

未来的工作可以集中在进一步提高CL-MVSNet的性能,例如通过探索更复杂的对比学习策略、引入新的正则化技术或改进光度一致性损失函数。此外,还可以将CL-MVSNet应用于其他计算机视觉任务,如3D重建、姿态估计和目标检测。