Fully-Decentralized MADDPG with Networked Agents
作者: Diego Bolliger, Lorenz Zauter, Robert Ziegler
发布时间: 2025-03-11
来源: arxiv
研究方向: 多智能体强化学习(MARL)
主要内容
本文提出了一种完全去中心化的多智能体深度确定性策略梯度(MADDPG)算法,用于解决合作、对抗和混合设置中的连续动作空间的多智能体强化学习问题。该算法通过应用网络通信方法,在智能体之间实现去中心化训练,同时允许在训练过程中进行本地通信。
主要贡献
1. 开发并评估了完全去中心化的MADDPG算法。
2. 将完全去中心化的MADDPG扩展到通过通信网络共享批评参数,并开发了两种不同的算法进行评估。
3. 修改了所有算法以适应对抗性设置。
研究方法
1. 去中心化训练:每个智能体保持自己的本地重放缓冲区,并使用本地观察来更新其局部批评。
2. 代理策略:通过学习代理策略来模拟其他智能体的行为,从而减少对其他智能体策略的直接访问。
3. 网络通信:通过通信网络交换批评参数,以实现智能体之间的信息共享。
4. 硬共识更新:通过平均相邻智能体的批评参数来更新批评器。
5. 软共识更新:通过在批评器损失中包含共识惩罚项来更新批评器。
实验结果
实验结果表明,所提出的算法在合作设置中表现出与原始MADDPG相当的性能,并且在去中心化设置中具有更低的计算成本。然而,在对抗性设置中,原始MADDPG算法的性能较差,而所提出的算法未能显著改善这一情况。
未来工作
未来工作将包括将所开发的去中心化技术应用于其他算法,例如MAPPO,以在多智能体强化学习环境中实现更好的性能。