CA-W3D: Leveraging Context-Aware Knowledge for Weakly Supervised Monocular 3D Detection

作者: Chupeng Liu, Runkai Zhao, Weidong Cai

发布时间: 2025-03-07

来源: arxiv

研究方向: 计算机视觉,3D目标检测,弱监督学习

主要内容

本文针对弱监督单目3D目标检测问题,提出了一种名为CA-W3D的上下文感知弱监督框架。该框架旨在通过引入上下文感知知识来解决传统弱监督方法在复杂场景中难以捕捉全局场景上下文的局限性。

主要贡献

1. 设计了一种两阶段的弱监督训练范式,将上下文感知语义融入单目3D建模。

2. 提出了区域级目标对比匹配(ROCM)机制,用于预训练阶段,随后在伪3D标签训练阶段引入双重到单一蒸馏(D2OD)机制。

3. 在KITTI数据集上取得了显著的性能提升,AP40和AP11指标相比基准方法有显著改进。

研究方法

1. 区域级目标对比匹配(ROCM):利用预训练的开放词汇视觉定位模型YOLO-World生成语义区域特征,并与可训练的单目3D编码器提取的嵌入进行对齐,以增强上下文理解。

2. 双重到单一蒸馏(D2OD):将预训练编码器中的上下文先验知识有效地传递到单目编码器,同时保持空间保真度和推理过程中的计算效率。

3. 损失函数:在预训练阶段使用区域-文本目标级对比损失,在训练阶段使用双重编码器融合和3D损失。

实验结果

在KITTI数据集上进行的实验表明,CA-W3D方法在AP40和AP11指标上均优于基准方法WeakM3D,甚至在某些情况下优于全监督方法。这证明了上下文感知知识在弱监督单目3D检测中的重要性。

未来工作

未来研究可以探索以下方向:将CA-W3D方法应用于其他视觉任务,如语义分割和实例分割;研究更有效的上下文感知机制;探索将CA-W3D与其他弱监督学习技术结合的方法。