MASTER: Multimodal Segmentation with Text Prompts
作者: Fuyang Liu, Shun Lu, Jilin Mei, Yu Hu
发布时间: 2025-03-07
来源: arxiv
研究方向: 自动驾驶场景下的多模态图像分割与语义理解
主要内容
该研究提出了一种名为MASTER的多模态分割模型,该模型通过融合RGB和热成像数据,并结合文本提示,实现自动驾驶场景下的像素级图像语义分割。
主要贡献
1. 将大型语言模型(LLM)首次应用于RGB-Thermal模态融合,实现了基于文本描述的像素级语义分割。
2. 提出了一种新的跨模态信息提取处理范式,并专门设计了针对RGB和热成像模态融合的双路径视觉Transformer(ViT)结构。
3. 在MFNet基准数据集上取得了最先进的性能,证明了所提方法的有效性。
研究方法
1. 使用ViT编码器提取图像模态特征。
2. 利用LLM作为核心模块进行多模态特征融合。
3. 采用轻量级的图像解码器获得语义分割结果。
4. 使用投影层将图像特征映射到语言空间,实现特征空间的对齐。
5. 使用LoRA进行微调以优化模型性能。
实验结果
在MFNet基准数据集上,MASTER方法取得了62.5%的平均交并比(mIoU),优于其他现有方法,特别是在分割小物体方面表现出色。
未来工作
未来计划在更多驾驶场景中进行实验,以进一步验证和改进所提出的方法。