NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models

作者: Mert Albaba, Chenhao Li, Markos Diomataris, Omid Taheri, Andreas Krause, Michael Black

发布时间: 2025-03-15

来源: arxiv

研究方向: 机器人学习与模拟,生成模型与强化学习交叉领域

主要内容

该论文提出了一种名为“无数据模仿学习”(NIL)的方法,通过利用预训练的视频扩散模型生成2D视频,从而学习3D运动技能,实现无需数据收集的技能获取。

主要贡献

1. 提出了一种名为NIL的无数据模仿学习方法,通过结合视频扩散模型和模仿学习,实现无需数据收集的技能获取。

2. 利用视频扩散模型生成专家演示,提供无需人工收集的数据。

3. 结合视频视觉Transformer和图像分割,从2D视频中创建丰富的奖励信号,引导代理学习。

4. 在多种机器人平台上进行了实验,验证了NIL的有效性,并与其他方法进行了比较。

5. 分析了奖励组件、扩散模型和视频扩散模型改进对NIL性能的影响。

研究方法

1. 视频扩散模型:用于生成2D参考视频。

2. 视频视觉Transformer:用于提取视频的时空特征。

3. 图像分割:用于从视频中提取代理的掩码。

4. 奖励函数:结合视频相似度、基于图像的相似度和正则化项,引导代理学习。

5. 强化学习:用于优化代理的策略,使其能够模仿参考视频中的运动模式。

实验结果

NIL在多种机器人平台上进行了实验,包括人形机器人、四足机器人和动物。实验结果表明,NIL在模仿学习任务中表现出色,并优于基于3D运动捕捉数据的基线方法。

未来工作

未来工作可以包括将NIL扩展到更复杂的任务,例如操纵和感知任务;将NIL与元学习结合,提高其泛化能力;将NIL与其他数据效率方法结合,进一步提高其性能。