Learning Transformer-based World Models with Contrastive Predictive Coding

作者: Maxime Burchi, Radu Timofte

发布时间: 2025-03-07

来源: arxiv

研究方向: 深度强化学习与模型强化学习

主要内容

本文提出了一种名为TWISTER的基于Transformer的强化学习算法,该算法通过引入动作条件对比预测编码(AC-CPC)来学习高级时间特征表示,从而提高智能体的性能。

主要贡献

1. 提出TWISTER算法,在Atari 100k基准测试中取得了最先进的性能。

2. 通过AC-CPC学习高级时间特征表示,提高了智能体的性能。

3. 通过数据增强和未来动作条件化,提高了AC-CPC的有效性。

4. 在Atari 100k基准测试中,TWISTER达到了人类正常化平均分数162%,中位数分数77%,创下了新的记录。

5. 在DeepMind Control Suite上取得了最先进的性能,平均分数为801.8。

研究方法

1. Transformer模型

2. 动作条件对比预测编码(AC-CPC)

3. 数据增强

4. 未来动作条件化

5. 重放缓冲区

6. 近端策略优化(PPO)

7. 对称对数交叉熵损失

实验结果

TWISTER在Atari 100k基准测试中取得了最先进的性能,平均分数为162%,中位数分数为77%。在DeepMind Control Suite上,TWISTER的平均分数为801.8,在所有测试任务中都取得了最先进的性能。

未来工作

未来可以研究以下方向:结合TWISTER与其他强化学习技术,例如蒙特卡洛树搜索(MCTS);将TWISTER应用于其他领域,例如自然语言处理和计算机视觉;进一步研究自我监督学习技术在模型强化学习中的应用。