Multi-Agent Inverse Q-Learning from Demonstrations

作者: Nathaniel Haynam, Adam Khoja, Dhruv Kumar, Vivek Myers, Erdem Bıyık

发布时间: 2025-03-09

来源: arxiv

研究方向: 多智能体强化学习与逆强化学习

主要内容

本文提出了一种名为MAMQL（Multi-Agent Marginal Q-Learning from Demonstrations）的新型多智能体逆强化学习算法，旨在解决在多智能体通用求和游戏中学习奖励函数的复杂性。该算法通过从专家演示中学习，为每个智能体联合学习奖励函数和政策。

1. 提出了一种新的多智能体逆强化学习算法MAMQL。

2. 通过学习边缘Q函数，解决了多智能体环境中的非平稳性和方差问题。

3. 将单智能体软Q逆强化学习的优化准则直接应用于多智能体环境。

4. 在三个不同的模拟环境中进行了实验，MAMQL在平均奖励、样本效率和奖励恢复方面显著优于之前的多智能体方法。

1. 多智能体逆强化学习（MA-IRL）

2. 边缘Q学习

3. 软Q学习

4. Boltzmann策略

5. 软Bellman条件

在三个不同的模拟环境中进行的实验表明，MAMQL在平均奖励、样本效率和奖励恢复方面显著优于之前的多智能体方法。MAMQL能够以更快的速度收敛到接近最优策略，并且具有更高的样本效率。

未来的工作将探索更具表达能力的架构，以在更复杂的高复杂度任务上超越专家性能。此外，将关注在从人类演示中学习策略或奖励函数时捕捉人类的偏见。