Policy Constraint by Only Support Constraint for Offline Reinforcement Learning

作者: Yunkai Gao, Jiaming Guo, Fan Wu, Rui Zhang

发布时间: 2025-03-10

来源: arxiv

研究方向: 离线强化学习(Offline Reinforcement Learning)

主要内容

本文提出了一种名为Only Support Constraint(OSC)的方法,用于解决离线强化学习中由于学习策略和行为策略之间的分布差异导致的分布偏移问题。OSC通过最大化学习策略在行为策略支持集中的总概率来约束学习策略,从而减轻了现有策略约束方法的保守性。

主要贡献

1. 从行为策略支持集中学习策略的总概率中获得了新的正则化项。

2. 提出了Only Support Constraint(OSC)方法,通过使用扩散模型来建模行为策略的支持集来实现正则化项。

3. 与现有的离线强化学习方法相比,OSC在基准数据集上实现了最先进的结果。

研究方法

1. 使用扩散模型来建模行为策略的支持集。

2. 提出了一种新的正则化项,该正则化项仅将学习策略限制在行为策略的支持集中,而不对支持集中的动作施加额外的约束。

3. 使用sigmoid函数来近似指示函数,以便在训练过程中进行优化。

实验结果

在D4RL基准数据集上进行的实验表明,OSC在多个环境中都优于现有的离线强化学习方法,包括MuJoCo和AntMaze数据集。此外,OSC还表现出良好的在线微调性能,在离线训练后可以进一步提高性能。

未来工作

未来的工作可以探索以下方向:1)将OSC方法应用于更复杂的离线强化学习任务;2)研究如何进一步提高扩散模型在估计行为策略支持集方面的准确性;3)探索将OSC方法与其他离线强化学习方法相结合的可能性。