VaViM and VaVAM: Autonomous Driving through Video Generative Modeling

作者: Florent Bartoccioni, Elias Ramzi, Victor Besnier, Shashanka Venkataramanan, Tuan-Hung Vu, Yihong Xu, Loick Chambon, Spyros Gidaris, Serkan Odabas, David Hurych, Renaud Marlet, Alexandre Boulch, Mickael Chen, Éloi Zablocki, Andrei Bursuc, Eduardo Valle, Matthieu Cord

发布时间: 2025-02-25

来源: arxiv

研究方向: 自动驾驶,视频生成模型,视觉语言动作模型

主要内容

本文研究了大规模生成视频模型在自动驾驶中的应用,引入了开源自回归视频模型VaViM及其伴随的视频动作模型VaVAM,以探究视频预训练如何迁移到现实世界的驾驶中。

主要贡献

1. 提供了一个用于在大规模1800+小时驾驶数据上训练自回归视频模型VaViM的数据混合、缩放定律、训练方案和详细可重复协议。

2. 提出了一种将视频模型适应为视频动作模型VaVAM的流程,使用模仿学习从相机输入进行端到端驾驶。

3. 提出了对学习到的VaViM表示的新评估方法,以评估其语义内容。此外,在开放循环和闭环驾驶场景中对VaVAM进行了基准测试,强调了关键安全情况。VaVAM在NeuroNCAP前方驾驶场景中实现了最先进的性能。

4. 发布了代码和模型权重。

研究方法

1. 自回归视频模型VaViM:通过建模时空标记序列的联合分布来预测帧,捕获驾驶场景的语义和动态。

2. 视频动作模型VaVAM:利用VaViM学习到的表示,通过模仿学习生成驾驶轨迹。

3. 模仿学习:使用专家轨迹进行模仿学习,以训练动作专家模块生成驾驶轨迹。

4. Flow Matching:使用Flow Matching进行轨迹去噪,生成连贯的驾驶轨迹。

5. 数据混合:将OpenDV、nuPlan和nuScenes数据集混合,以增强模型性能。

实验结果

VaVAM在开放循环和闭环驾驶场景中均表现出良好的性能,特别是在NeuroNCAP前方驾驶场景中实现了最先进的性能。VaVAM的碰撞率比现有方法降低了27%,同时保持了可比的进度指标。

未来工作

未来工作将包括:解耦高级命令路径和实际专家轨迹,以使模型在模仿训练集中观察专家偏离高级命令路径;将方法扩展到多相机设置,以增强场景理解;探索更高级的动作生成框架,同时保持当前方法的优点并提高关键安全行为;在更多样化的驾驶数据集上进行更大规模的预训练;使用比当前LLaMaGen-VQGAN更好的标记器,更好地捕获驾驶场景的视觉细节;开发更细致的评估指标,以评估模型对物理原理的理解。