Data-Efficient Learning from Human Interventions for Mobile Robots
作者: Zhenghao Peng, Zhizheng Liu, Bolei Zhou
发布时间: 2025-03-10
来源: arxiv
研究方向: 移动机器人学习与控制
主要内容
该研究提出了一种名为PVP4Real的在线人机交互学习方法,旨在提高移动机器人在现实世界任务中的数据效率和训练安全性。该方法结合了模仿学习和强化学习,通过在线人类干预和示范进行实时策略学习,无需奖励或预训练。
主要贡献
1. 提出了一种名为PVP4Real的数据高效人机交互学习方法,无需奖励,可泛化到各种任务设置、感官数据和机器人形式。
2. 构建了真实的实验系统,在两种移动机器人任务(安全导航和人类跟随)中部署了所提出的方法,实验表明该方法在仅15分钟内即可完成训练,无需奖励和先验知识。
3. 通过结合强化学习和模仿学习,PVP4Real能够在不牺牲性能的情况下,显著减少人类干预,从而提高训练效率。
研究方法
1. 结合了模仿学习和强化学习,通过在线人类干预和示范进行实时策略学习。
2. 使用行为克隆(BC)损失,通过最小化人类数据的负对数似然损失来学习决策策略。
3. 引入价值网络Q[θ](s, a) → R,预测人类行为的正值和被人类干预的novice动作的负值。
4. 使用时间差分(TD)学习,对所有数据进行学习(因为该方法在无奖励设置中,环境奖励不可用)。
实验结果
实验结果表明,PVP4Real在安全导航和人类跟随任务中均优于行为克隆(BC)方法,并且在模拟和真实世界环境中都取得了良好的效果。
未来工作
未来工作可以进一步探索更复杂和具有挑战性的任务,例如长距离目标条件导航或操作任务。