RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

作者: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen

发布时间: 2025-04-02

来源: arxiv

研究方向: 智能体在开放世界环境中的推理与想象协同

主要内容

本文提出了一种名为RIG的端到端通用策略,通过协同推理和想象能力来提高智能体在复杂开放世界环境中的表现。RIG模型通过在Transformer中实现序列到序列建模,联合学习文本推理、低级动作控制和图像生成,从而更全面地捕捉开放世界动态并提高训练的样本效率。

主要贡献

1. 引入了一种端到端通用策略,协同整合了显式推理和视觉想象。

2. 提出了一个渐进式数据收集策略,结合简单的语言模型训练,有效地实现了方法。

3. 该方法自然支持测试时缩放,实现动态前瞻推理,增强动作鲁棒性并减少推理过程中的试错。

4. 在Minecraft环境中对RIG进行了广泛评估,实验结果表明,RIG在具身任务、图像生成和推理基准测试中的性能分别提升了3.29倍、2.42倍和1.33倍。

5. RIG在仅用111小时视频训练的情况下实现了最先进的成果,这是之前依赖于2000小时视频的工作的1/17。

研究方法

1. 序列到序列建模

2. 自回归Transformer

3. 渐进式数据收集策略

4. Rejection Sampling Fine-tuning (RFT)

5. 视觉想象

6. 前瞻推理

实验结果

RIG在Minecraft环境中的具身任务、图像生成和推理基准测试中均取得了显著的性能提升。在数据效率方面,RIG在仅用111小时视频的情况下实现了最先进的成果,远低于其他方法。在可扩展性方面,RIG在训练数据量、迭代次数和推理步骤方面均表现出良好的可扩展性。

未来工作

未来的工作可以进一步探索以下方向:1. 在更多开放世界环境中评估RIG的性能;2. 探索更有效的数据收集和增强策略;3. 研究更先进的推理和想象机制,以进一步提高RIG的性能。