Subtask-Aware Visual Reward Learning from Segmented Demonstrations
作者: Changyeon Kim, Minho Heo, Doohyun Lee, Jinwoo Shin, Honglak Lee, Joseph J. Lim, Kimin Lee
发布时间: 2025-03-03
来源: arxiv
研究方向: 机器人强化学习与视觉奖励学习
主要内容
该研究提出了一种名为REDS的视觉奖励学习框架,通过分析视频演示中的子任务分割,生成相应的奖励信号,以帮助机器人完成复杂任务。REDS利用视频演示、子任务分割和对比学习,在无需大量人工干预的情况下,有效训练机器人完成复杂任务。
主要贡献
1. 提出了一种新的视觉奖励学习框架REDS,能够从视频演示中学习奖励信号,并识别子任务结构。
2. 在Meta-world和FurnitureBench等复杂任务中,REDS显著优于基线方法。
3. REDS能够有效地训练机器人完成家具组装等真实世界任务。
4. REDS具有较强的泛化能力,可以应用于未见过的任务和环境。
研究方法
1. 子任务分割:将任务分解为多个子任务,并为每个子任务生成相应的奖励信号。
2. 对比学习:通过对比学习,将视频表示与子任务嵌入对齐,以确保准确识别子任务。
3. EPIC损失函数:使用EPIC损失函数,最小化学习到的奖励函数与真实奖励信号之间的差异。
4. 奖励模型:使用Transformer模型捕捉视频片段中的时间依赖性,并生成奖励信号。
实验结果
在Meta-world和FurnitureBench等复杂任务中,REDS显著优于基线方法。在Meta-world中,REDS在所有任务中都取得了优异的性能,甚至在一些任务中超过了人工设计的奖励函数。在FurnitureBench中,REDS通过在线微调,实现了显著的性能提升。此外,REDS在未见过的任务和环境中也表现出良好的泛化能力。
未来工作
未来研究将探索以下方向:1)自动化子任务定义和分割;2)改进视频表示和子任务嵌入;3)增强泛化能力和鲁棒性;4)收集失败演示,以减少奖励误指定。