Multi-Agent Inverse Q-Learning from Demonstrations
作者: Nathaniel Haynam, Adam Khoja, Dhruv Kumar, Vivek Myers, Erdem Bıyık
发布时间: 2025-03-09
来源: arxiv
研究方向: 多智能体强化学习与逆强化学习
主要内容
本文提出了一种名为MAMQL(Multi-Agent Marginal Q-Learning from Demonstrations)的新型多智能体逆强化学习算法,旨在解决在多智能体通用求和游戏中学习奖励函数的复杂性。该算法通过从专家演示中学习,为每个智能体联合学习奖励函数和政策。
主要贡献
1. 提出了一种新的多智能体逆强化学习算法MAMQL。
2. 通过学习边缘Q函数,解决了多智能体环境中的非平稳性和方差问题。
3. 将单智能体软Q逆强化学习的优化准则直接应用于多智能体环境。
4. 在三个不同的模拟环境中进行了实验,MAMQL在平均奖励、样本效率和奖励恢复方面显著优于之前的多智能体方法。
研究方法
1. 多智能体逆强化学习(MA-IRL)
2. 边缘Q学习
3. 软Q学习
4. Boltzmann策略
5. 软Bellman条件
实验结果
在三个不同的模拟环境中进行的实验表明,MAMQL在平均奖励、样本效率和奖励恢复方面显著优于之前的多智能体方法。MAMQL能够以更快的速度收敛到接近最优策略,并且具有更高的样本效率。
未来工作
未来的工作将探索更具表达能力的架构,以在更复杂的高复杂度任务上超越专家性能。此外,将关注在从人类演示中学习策略或奖励函数时捕捉人类的偏见。