Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning

作者: Zhenghai Xue, Lang Feng, Jiacheng Xu, Kang Kang, Xiang Wen, Bo An, Shuicheng Yan

发布时间: 2025-03-11

来源: arxiv

研究方向: 跨动态强化学习中的策略正则化

主要内容

该研究针对从不同动态环境中收集的数据进行学习,提出了一种新的框架,该框架将奖励最大化与观察模仿相结合,并采用了一种基于-距离的正则化策略优化方法。该框架通过强制约束全局可访问状态(在所有考虑的动态中具有非零访问频率的状态)来减轻不可访问状态带来的挑战。

主要贡献

1. 识别了现有IfO方法在动态变化下的一个共同局限性,并提出了仅限于全局可访问状态的分布模仿。

2. 设计了一个-距离正则化策略优化框架,将专家模仿与奖励最大化相结合。

3. 通过以不同的方式实例化-距离,进行了理论分析并介绍了一个实用算法,验证了在全局可访问状态上正则化策略的有效性。

研究方法

1. 观察模仿(IfO)

2. -距离正则化策略优化

3. JS散度

4. 网络距离

5. 生成对抗网络(GAN)

6. 访问状态分布模仿

7. 奖励最大化

实验结果

在多个基准测试中,ASOR展示了其在增强跨领域策略迁移算法方面的有效性,显著提高了它们的性能。实验结果表明,ASOR可以有效地整合到多种RL方法中,包括离线RL和离策略RL。

未来工作

未来工作可能包括将ASOR应用于具有多个奖励函数的任务,以及对具有大R_s的对抗性HiP-MDP进行理论分析。