VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion
作者: Pei Liu, Haipeng Liu, Haichao Liu, Xin Liu, Jinxin Ni, Jun Ma
发布时间: 2025-02-27
来源: arxiv
研究方向: 自动驾驶与视觉语言模型
主要内容
该研究提出了一种名为VLM-E2E的新型框架,旨在通过集成视觉语言模型(VLM)来增强端到端自动驾驶系统。该框架通过提供注意力提示,将文本表示整合到鸟瞰图(BEV)特征中,以进行语义监督,使模型能够学习更丰富的特征表示,这些表示明确地捕获驾驶员的注意力语义。此外,该框架还引入了一种BEV-文本可学习加权融合策略,以解决融合多模态信息中的模态重要性不平衡问题。
主要贡献
1. 提出了VLM-E2E,这是一种利用VLM丰富训练过程并提高注意力理解的框架。
2. 引入了一种BEV-文本可学习加权融合策略,以动态平衡BEV和文本模态的贡献。
3. 通过结合地面实况标签和高级操纵意图,解决了VLM的幻觉问题。
4. 在nuScenes数据集上进行了广泛的实验,证明了VLM-E2E相对于现有方法的优越性。
研究方法
1. VLM-based Text Annotation Generation
2. Text Interaction Guidance Module
3. Vision-based End-to-end Model
4. Spatio-Temporal BEV Perception
5. Semantic Occupancy Prediction
6. Attention Guided Future Planning
实验结果
实验结果表明,VLM-E2E在处理复杂驾驶场景方面取得了显著改进,展示了其将几何精度与高级语义推理相结合以实现更安全和更可解释的自动驾驶的能力。
未来工作
未来工作将集中于将VLM和E2E集成到统一的框架中,并利用激光雷达和雷达模态以使模型在长尾场景中具有更好的泛化能力。