V-Max: Making RL practical for Autonomous Driving
作者: Valentin Charraut, Thomas Tournaire, Waël Doulazmi, Thibault Buhet
发布时间: 2025-03-12
来源: arxiv
研究方向: 自动驾驶与强化学习
主要内容
本文介绍了V-Max,一个旨在使强化学习(RL)在自动驾驶(AD)中实际可行的开源研究框架。V-Max基于Waymax,一个硬件加速的AD模拟器,并扩展了ScenarioNet的方法,以快速模拟不同的AD数据集。V-Max集成了观察和奖励函数、基于transformer的编码器以及训练管道,并提供了对抗性评估设置和广泛的评估指标。
主要贡献
1. V-Max提供了一个完整的JAX-based RL训练管道,包括观察和奖励函数,以及受运动预测启发的基于transformer的编码器。
2. V-Max支持多数据集加速模拟,通过扩展Waymax来使用ScenarioNet的方法。
3. V-Max集成了全面的评估工具,包括nuPlan的驾驶质量指标的重新实现,以及集成ReGentS进行对抗性评估。
4. 通过大规模基准测试,分析了网络架构、观察函数、训练数据和奖励塑造对RL性能的影响。
研究方法
1. 强化学习(RL)
2. 模仿学习(IL)
3. 基于transformer的编码器
4. 观察和奖励函数设计
5. 训练管道构建
6. 对抗性评估
7. 基准测试
实验结果
V-Max的实验结果表明,它可以有效地提高自动驾驶中RL的性能。通过基准测试,V-Max使用标准的RL算法训练出的驾驶策略,在WOMD数据集上实现了97.44%的准确率,并在所有V-Max分数的子指标上表现出色。
未来工作
为了进一步提高自动驾驶策略的鲁棒性和逼真度,未来的工作将集中在以下方面:开发考虑驾驶难度分布的更严格的评估协议;进一步研究对抗性场景生成;开发更真实的模拟代理;以及减少对非反应性评估的依赖。