Knowledge Retention for Continual Model-Based Reinforcement Learning
作者: Yixiang Sun, Haotian Fu, Michael Littman, George Konidaris
发布时间: 2025-03-07
来源: arxiv
研究方向: 持续模型强化学习(Continual Model-Based Reinforcement Learning)
主要内容
本文提出了一种名为DRAGO的持续模型强化学习方法,旨在解决在没有先前任务数据的情况下,如何避免灾难性遗忘并学习一个越来越完整的全局模型的问题。该方法通过合成经验重排和通过探索恢复记忆两个关键组件,实现了在一系列任务中增量地开发世界模型。
主要贡献
1. 提出了DRAGO,一种针对持续模型强化学习的创新方法,用于在没有先前任务数据的情况下避免灾难性遗忘。
2. 通过合成经验重排和通过探索恢复记忆两个关键组件,使代理能够维护一个全面且不断发展的世界模型。
3. 在多个持续学习场景中实现了卓越的性能,证明了DRAGO在知识保留和迁移方面的有效性。
研究方法
1. 合成经验重排:利用生成模型从过去任务中创建合成经验,使代理能够增强之前学习到的动态,而不需要存储数据。
2. 通过探索恢复记忆:引入内在奖励机制,引导代理重新访问先前任务中的相关状态。
3. 模型预测路径积分(Model Predictive Path Integral)作为规划方法。
4. 基于变分自动编码器(VAE)的生成模型,用于生成合成数据。
5. 使用Fisher信息矩阵估计参数重要性并相应地惩罚更新,以防止参数重要性的显著变化(EWC方法)。
实验结果
在MiniGrid、Cheetah和Walker等三个持续学习领域中进行了评估,结果表明DRAGO在知识保留和迁移方面优于其他方法。实验结果表明,DRAGO在多个测试任务中取得了最佳性能,证明了其在持续学习场景中的有效性。
未来工作
将DRAGO扩展到更大规模的环境和更多样化的任务分布,以及开发持续生成模型以解决生成模型的遗忘问题。