InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model
作者: Feeza Khan Khanzada, Jaerock Kwon
发布时间: 2025-03-10
来源: arxiv
研究方向: 自动驾驶与强化学习
主要内容
该研究提出了一种名为InDRiVE的基于模型增强的强化学习方法,用于自动驾驶。InDRiVE通过利用内部模型之间的不一致性来驱动车辆探索,从而实现无需任务特定反馈的自主探索。该方法旨在通过内禀探索提高样本效率和鲁棒性,并在零样本或少量样本的情况下快速适应下游驾驶任务。
主要贡献
1. InDRiVE是第一个仅使用内禀奖励训练自动驾驶车辆的研究,利用了世界模型集合之间的潜在不一致性。
2. InDRiVE支持零样本和少量样本的适应,大大减少了领域特定奖励工程。
3. InDRiVE表明,完全内禀奖励机制对于高维、安全关键的领域(如自动驾驶)是可行且有益的。
4. InDRiVE通过内禀模型不一致信号实现了鲁棒的探索、快速适应新任务和简化的奖励设计流程,为未来自动驾驶的更可扩展、自监督解决方案铺平了道路。
研究方法
1. 模型增强的强化学习(MBRL)
2. 基于Dreamer框架的世界模型
3. 内禀动机和好奇心驱动的探索
4. 集合不一致性用于内禀探索
5. 零样本和少量样本学习
6. steer损失函数
实验结果
在CARLA模拟环境中进行的实验表明,InDRiVE在零样本和少量样本情况下均优于DreamerV2和DreamerV3基线,并在所有三个任务中都实现了接近最优的性能。InDRiVE在Town01和Town02中的成功率均高于基线,同时使用的训练步骤更少。
未来工作
探索更复杂的交通场景、集成更丰富的传感器模态、解决模拟到现实的迁移问题、研究持续和多项学习,以及评估替代的内禀奖励公式,以进一步提高可扩展性、数据效率和适应性。