DenseFormer: Learning Dense Depth Map from Sparse Depth and Image via Conditional Diffusion Model

作者: Ming Yuan, Sichao Wang, Chuang Zhang, Lei He, Qing Xu, Jianqiang Wang

发布时间: 2025-04-02

来源: arxiv

研究方向: 自动驾驶、深度学习、计算机视觉

主要内容

该论文提出了DenseFormer，一种基于条件扩散模型的深度补全方法，用于从稀疏深度图和RGB图像生成密集深度图。DenseFormer通过迭代地细化初始随机深度分布来生成密集深度图，同时利用特征金字塔结构和多层可变形注意力机制提取和集成来自稀疏深度图和RGB图像的特征。

1. 将扩散模型应用于户外场景深度补全任务的第一个全面研究。

2. 提出了一种基于特征金字塔网络和多层可变形注意力机制的特征提取方法。

3. 提出了一个深度细化模块，该模块通过对扩散过程生成的深度结果进行多尺度迭代细化来提高精度。

4. 在KITTI户外场景数据集上的大量实验表明，DenseFormer优于现有的经典深度补全方法。

1. 条件扩散模型

2. 特征金字塔网络

3. 多层可变形注意力机制

4. 深度细化模块

5. 空间传播网络

6. U-Net架构

7. DDIM推理过程

在KITTI测试数据集上，DenseFormer的RMSE为796.16mm，优于CSPN、TWISE和BA&GC等方法。实验结果表明，DenseFormer在恢复物体边界和深度细节方面具有优越的能力，并产生更清晰、更准确的深度补全结果。

未来工作将探索将更先进的方法（如BP-Net）的技巧融入DenseFormer中，以提高其在生成密集深度图方面的性能。