MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing
作者: Karim Radouane, Hanane Azzag, Mustapha lebbah
发布时间: 2025-04-02
来源: arxiv
研究方向: 计算机视觉与自然语言处理交叉领域,专注于遥感图像的视觉定位和指代表达理解(REC)。
主要内容
提出了一种名为MB-ORES的多分支对象推理器,用于遥感图像的视觉定位。该框架结合了目标检测(OD)和视觉定位(VG),通过细调一个开放集目标检测器,并利用指代表达数据进行部分监督学习,以支持传统的OD并建立VG任务的直观先验。
主要贡献
1. 提出了一种将OD和VG任务结合的统一框架,用于遥感图像。
2. 利用开放集目标检测器,通过部分监督学习进行细调,以支持传统的OD并建立VG任务的直观先验。
3. 构建了图像的图表示,包括对象查询、类别嵌入和提议位置。
4. 设计了一个多分支网络,该网络整合了空间、视觉和分类特征,以生成任务感知提议。
5. 提出了一个对象推理网络,该网络在提议之间分配概率,并随后通过软选择机制进行最终指代表达对象定位。
6. 在OPT-RSVG和DIOR-RSVG数据集上实现了优于现有方法的性能,同时保留了经典的OD功能。
研究方法
1. 开放集目标检测器(GroundingDINO)的细调。
2. 图表示方法,用于表示图像中的对象。
3. 多分支网络,用于整合空间、视觉和分类特征。
4. 对象推理网络,用于在提议之间分配概率。
5. 软选择机制,用于最终指代表达对象定位。
6. FFN回归头,用于预测指代表达对象的边界框。
7. 损失函数,包括分类损失、定位损失和L1损失。
实验结果
在OPT-RSVG和DIOR-RSVG数据集上取得了优于现有方法的性能,特别是在OPT-RSVG数据集上,模型在所有指标上都取得了显著提升。
未来工作
探索零样本推理和更广泛的视觉语言任务,以进一步扩展MB-ORES的应用范围。