Building reliable sim driving agents by scaling self-play

作者: Daphne Cornelisse, Aarav Pandya, Kevin Joseph, Joseph Suárez, Eugene Vinitsky

发布时间: 2025-02-24

来源: arxiv

研究方向: 自动驾驶与仿真

主要内容

该研究旨在通过扩展自我博弈来构建可靠的仿真驾驶代理,以提高自动驾驶系统开发和测试的可靠性。

主要贡献

1. 提出了一种基于自我博弈的仿真驾驶代理训练方法,通过在Waymo Open Motion Dataset上扩展自我博弈,实现了高可靠性的仿真驾驶代理。

2. 通过在单个GPU上训练,代理几乎在一天内解决了整个训练集。

3. 代理在未见的测试场景中表现出良好的泛化能力,在10,000个保留的测试场景中实现了99.8%的目标完成率。

4. 代理对分布外的场景表现出部分鲁棒性,并且可以在几分钟内微调以达到近乎完美的性能。

5. 开源了预训练代理和完整的代码库,促进了进一步的研究。

研究方法

1. 自我博弈强化学习(RL)

2. 半真实人类感知框架

3. GPUDrive数据驱动模拟器

4. Proximal Policy Optimization (PPO)算法

5. 奖励函数设计

实验结果

实验结果表明,该研究提出的自我博弈方法能够有效地提高仿真驾驶代理的可靠性,并在未见的测试场景中表现出良好的泛化能力。

未来工作

未来工作将包括进一步提高仿真代理的可靠性,使其能够处理更复杂和罕见的情况,以及进一步研究如何平衡可靠性和现实性,以确保代理能够准确反映人类驾驶行为。