Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning

作者: Hyungkyu Kang, Min-hwan Oh

发布时间: 2025-03-10

来源: arxiv

研究方向: 强化学习(RL)与偏好强化学习(PbRL)

主要内容

本文研究了离线偏好强化学习(PbRL),其中学习基于预先收集的偏好反馈对轨迹对。针对现有理论方法在不确定性下的保守性保证方面面临的挑战,提出了对抗性偏好策略优化(APPO),这是一种用于离线PbRL的计算效率高、保证样本复杂度界限的算法,无需依赖显式置信集。

主要贡献

1. 提出了APPO算法,这是一种简单的离线PbRL算法,适用于通用函数逼近。

2. 证明了在标准函数类和集中性假设下,所提出算法的样本复杂度。

3. 实现了APPO的实用版本,可以使用神经网络学习大量数据集。

4. 实验结果表明,APPO在连续控制任务中有效地学习复杂数据集,其性能与现有最先进的方法相当。

研究方法

1. 将PbRL框架化为策略和模型之间的两人博弈。

2. 使用对抗性训练来找到近最优策略。

3. 使用标准函数逼近假设和轨迹集中性假设来推导样本复杂度界限。

4. 利用神经网络进行函数逼近和策略优化。

实验结果

在Meta-World(Yu等,2020)的中等重放和中等专家数据集上评估了APPO。实验结果表明,APPO在大多数数据集上优于或与现有最先进的方法相当,即使在具有可证明的统计保证的情况下也是如此。

未来工作

未来工作可以探索APPO在更复杂环境中的应用,例如多智能体系统、连续控制任务和强化学习与其他机器学习技术的结合。此外,可以研究提高APPO的样本效率和鲁棒性的方法。