V-Max: Making RL practical for Autonomous Driving

作者: Valentin Charraut, Thomas Tournaire, Waël Doulazmi, Thibault Buhet

发布时间: 2025-03-12

来源: arxiv

研究方向: 自动驾驶与强化学习

主要内容

本文介绍了V-Max，一个旨在使强化学习（RL）在自动驾驶（AD）中实际可行的开源研究框架。V-Max基于Waymax，一个硬件加速的AD模拟器，并扩展了ScenarioNet的方法，以快速模拟不同的AD数据集。V-Max集成了观察和奖励函数、基于transformer的编码器以及训练管道，并提供了对抗性评估设置和广泛的评估指标。

主要贡献

1. V-Max提供了一个完整的JAX-based RL训练管道，包括观察和奖励函数，以及受运动预测启发的基于transformer的编码器。

2. V-Max支持多数据集加速模拟，通过扩展Waymax来使用ScenarioNet的方法。

3. V-Max集成了全面的评估工具，包括nuPlan的驾驶质量指标的重新实现，以及集成ReGentS进行对抗性评估。

4. 通过大规模基准测试，分析了网络架构、观察函数、训练数据和奖励塑造对RL性能的影响。

研究方法

1. 强化学习（RL）

2. 模仿学习（IL）

3. 基于transformer的编码器

4. 观察和奖励函数设计

5. 训练管道构建

6. 对抗性评估

7. 基准测试

实验结果

V-Max的实验结果表明，它可以有效地提高自动驾驶中RL的性能。通过基准测试，V-Max使用标准的RL算法训练出的驾驶策略，在WOMD数据集上实现了97.44%的准确率，并在所有V-Max分数的子指标上表现出色。

未来工作

为了进一步提高自动驾驶策略的鲁棒性和逼真度，未来的工作将集中在以下方面：开发考虑驾驶难度分布的更严格的评估协议；进一步研究对抗性场景生成；开发更真实的模拟代理；以及减少对非反应性评估的依赖。