Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning
作者: Zhenghai Xue, Lang Feng, Jiacheng Xu, Kang Kang, Xiang Wen, Bo An, Shuicheng Yan
发布时间: 2025-03-11
来源: arxiv
研究方向: 跨动态强化学习中的策略正则化
主要内容
该研究针对从不同动态环境中收集的数据进行学习,提出了一种新的框架,该框架将奖励最大化与观察模仿相结合,并采用了一种基于-距离的正则化策略优化方法。该框架通过强制约束全局可访问状态(在所有考虑的动态中具有非零访问频率的状态)来减轻不可访问状态带来的挑战。
主要贡献
1. 识别了现有IfO方法在动态变化下的一个共同局限性,并提出了仅限于全局可访问状态的分布模仿。
2. 设计了一个-距离正则化策略优化框架,将专家模仿与奖励最大化相结合。
3. 通过以不同的方式实例化-距离,进行了理论分析并介绍了一个实用算法,验证了在全局可访问状态上正则化策略的有效性。
研究方法
1. 观察模仿(IfO)
2. -距离正则化策略优化
3. JS散度
4. 网络距离
5. 生成对抗网络(GAN)
6. 访问状态分布模仿
7. 奖励最大化
实验结果
在多个基准测试中,ASOR展示了其在增强跨领域策略迁移算法方面的有效性,显著提高了它们的性能。实验结果表明,ASOR可以有效地整合到多种RL方法中,包括离线RL和离策略RL。
未来工作
未来工作可能包括将ASOR应用于具有多个奖励函数的任务,以及对具有大R_s的对抗性HiP-MDP进行理论分析。