MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

作者: Karim Radouane, Hanane Azzag, Mustapha lebbah

发布时间: 2025-04-02

来源: arxiv

研究方向: 计算机视觉与自然语言处理交叉领域,专注于遥感图像的视觉定位和指代表达理解(REC)。

主要内容

提出了一种名为MB-ORES的多分支对象推理器,用于遥感图像的视觉定位。该框架结合了目标检测(OD)和视觉定位(VG),通过细调一个开放集目标检测器,并利用指代表达数据进行部分监督学习,以支持传统的OD并建立VG任务的直观先验。

主要贡献

1. 提出了一种将OD和VG任务结合的统一框架,用于遥感图像。

2. 利用开放集目标检测器,通过部分监督学习进行细调,以支持传统的OD并建立VG任务的直观先验。

3. 构建了图像的图表示,包括对象查询、类别嵌入和提议位置。

4. 设计了一个多分支网络,该网络整合了空间、视觉和分类特征,以生成任务感知提议。

5. 提出了一个对象推理网络,该网络在提议之间分配概率,并随后通过软选择机制进行最终指代表达对象定位。

6. 在OPT-RSVG和DIOR-RSVG数据集上实现了优于现有方法的性能,同时保留了经典的OD功能。

研究方法

1. 开放集目标检测器(GroundingDINO)的细调。

2. 图表示方法,用于表示图像中的对象。

3. 多分支网络,用于整合空间、视觉和分类特征。

4. 对象推理网络,用于在提议之间分配概率。

5. 软选择机制,用于最终指代表达对象定位。

6. FFN回归头,用于预测指代表达对象的边界框。

7. 损失函数,包括分类损失、定位损失和L1损失。

实验结果

在OPT-RSVG和DIOR-RSVG数据集上取得了优于现有方法的性能,特别是在OPT-RSVG数据集上,模型在所有指标上都取得了显著提升。

未来工作

探索零样本推理和更广泛的视觉语言任务,以进一步扩展MB-ORES的应用范围。