Large Language Model Guided Progressive Feature Alignment for Multimodal UAV Object Detection

作者: Wentao Wu, Chenglong Li, Xiao Wang, Bin Luo, Qi Liu

发布时间: 2025-03-11

来源: arxiv

研究方向: 多模态无人机目标检测

主要内容

针对现有多模态无人机目标检测方法中模态间语义差距导致的语义和空间对齐困难问题,提出了一种基于大型语言模型(LLM)引导的渐进式特征对齐网络(LPANet)。该方法利用LLM提取的语义特征来引导模态间的渐进式语义和空间对齐,从而提高检测性能。

主要贡献

1. 提出了一种基于LLM引导的渐进式特征对齐网络(LPANet)。

2. 设计了语义对齐模块(SAM),通过最大化语义特征和视觉特征之间的相似度,实现跨模态语义对齐。

3. 设计了显式空间对齐模块(ESM),将语义关系整合到特征级偏移估计中,实现粗粒度空间对齐。

4. 设计了隐式空间对齐模块(ISM),通过跨模态相关性聚合相邻区域的关键特征,实现隐式空间对齐。

研究方法

1. 利用ChatGPT生成每个对象类别的细粒度文本描述,并使用大型语言模型MPNet提取语义特征。

2. 设计语义对齐模块(SAM),将语义特征和视觉特征拉近到共享空间。

3. 设计显式空间对齐模块(ESM),通过整合语义关系来估计特征级偏移。

4. 设计隐式空间对齐模块(ISM),利用跨模态相关性聚合相邻区域的关键特征。

5. 使用对称一致性损失(SR Loss)来约束隐式对齐过程。

实验结果

在DroneVehicle和VEDAI两个公共多模态无人机目标检测数据集上进行的实验表明,LPANet优于现有的多模态无人机目标检测器。

未来工作

进一步研究如何将LPANet应用于其他多模态目标检测任务,并探索使用更先进的LLM来提高模型性能。