V-Max: Making RL practical for Autonomous Driving

作者: Valentin Charraut, Thomas Tournaire, Waël Doulazmi, Thibault Buhet

发布时间: 2025-03-12

来源: arxiv

研究方向: 自动驾驶与强化学习

主要内容

本文介绍了V-Max,一个旨在使强化学习(RL)在自动驾驶(AD)中实际可行的开源研究框架。V-Max基于Waymax,一个硬件加速的AD模拟器,并扩展了ScenarioNet的方法,以快速模拟不同的AD数据集。V-Max集成了观察和奖励函数、基于transformer的编码器以及训练管道,并提供了对抗性评估设置和广泛的评估指标。

主要贡献

1. V-Max提供了一个完整的JAX-based RL训练管道,包括观察和奖励函数,以及受运动预测启发的基于transformer的编码器。

2. V-Max支持多数据集加速模拟,通过扩展Waymax来使用ScenarioNet的方法。

3. V-Max集成了全面的评估工具,包括nuPlan的驾驶质量指标的重新实现,以及集成ReGentS进行对抗性评估。

4. 通过大规模基准测试,分析了网络架构、观察函数、训练数据和奖励塑造对RL性能的影响。

研究方法

1. 强化学习(RL)

2. 模仿学习(IL)

3. 基于transformer的编码器

4. 观察和奖励函数设计

5. 训练管道构建

6. 对抗性评估

7. 基准测试

实验结果

V-Max的实验结果表明,它可以有效地提高自动驾驶中RL的性能。通过基准测试,V-Max使用标准的RL算法训练出的驾驶策略,在WOMD数据集上实现了97.44%的准确率,并在所有V-Max分数的子指标上表现出色。

未来工作

为了进一步提高自动驾驶策略的鲁棒性和逼真度,未来的工作将集中在以下方面:开发考虑驾驶难度分布的更严格的评估协议;进一步研究对抗性场景生成;开发更真实的模拟代理;以及减少对非反应性评估的依赖。