Learning Transformer-based World Models with Contrastive Predictive Coding

作者: Maxime Burchi, Radu Timofte

发布时间: 2025-03-07

来源: arxiv

研究方向: 深度强化学习与模型强化学习

主要内容

本文提出了一种名为TWISTER的基于Transformer的强化学习算法，该算法通过引入动作条件对比预测编码（AC-CPC）来学习高级时间特征表示，从而提高智能体的性能。

1. 提出TWISTER算法，在Atari 100k基准测试中取得了最先进的性能。

2. 通过AC-CPC学习高级时间特征表示，提高了智能体的性能。

3. 通过数据增强和未来动作条件化，提高了AC-CPC的有效性。

4. 在Atari 100k基准测试中，TWISTER达到了人类正常化平均分数162%，中位数分数77%，创下了新的记录。

5. 在DeepMind Control Suite上取得了最先进的性能，平均分数为801.8。

1. Transformer模型

2. 动作条件对比预测编码（AC-CPC）

3. 数据增强

4. 未来动作条件化

5. 重放缓冲区

6. 近端策略优化（PPO）

7. 对称对数交叉熵损失

TWISTER在Atari 100k基准测试中取得了最先进的性能，平均分数为162%，中位数分数为77%。在DeepMind Control Suite上，TWISTER的平均分数为801.8，在所有测试任务中都取得了最先进的性能。

未来可以研究以下方向：结合TWISTER与其他强化学习技术，例如蒙特卡洛树搜索（MCTS）；将TWISTER应用于其他领域，例如自然语言处理和计算机视觉；进一步研究自我监督学习技术在模型强化学习中的应用。