Learning Transformer-based World Models with Contrastive Predictive Coding
作者: Maxime Burchi, Radu Timofte
发布时间: 2025-03-07
来源: arxiv
研究方向: 深度强化学习与模型强化学习
主要内容
本文提出了一种名为TWISTER的基于Transformer的强化学习算法,该算法通过引入动作条件对比预测编码(AC-CPC)来学习高级时间特征表示,从而提高智能体的性能。
主要贡献
1. 提出TWISTER算法,在Atari 100k基准测试中取得了最先进的性能。
2. 通过AC-CPC学习高级时间特征表示,提高了智能体的性能。
3. 通过数据增强和未来动作条件化,提高了AC-CPC的有效性。
4. 在Atari 100k基准测试中,TWISTER达到了人类正常化平均分数162%,中位数分数77%,创下了新的记录。
5. 在DeepMind Control Suite上取得了最先进的性能,平均分数为801.8。
研究方法
1. Transformer模型
2. 动作条件对比预测编码(AC-CPC)
3. 数据增强
4. 未来动作条件化
5. 重放缓冲区
6. 近端策略优化(PPO)
7. 对称对数交叉熵损失
实验结果
TWISTER在Atari 100k基准测试中取得了最先进的性能,平均分数为162%,中位数分数为77%。在DeepMind Control Suite上,TWISTER的平均分数为801.8,在所有测试任务中都取得了最先进的性能。
未来工作
未来可以研究以下方向:结合TWISTER与其他强化学习技术,例如蒙特卡洛树搜索(MCTS);将TWISTER应用于其他领域,例如自然语言处理和计算机视觉;进一步研究自我监督学习技术在模型强化学习中的应用。