Causal Mean Field Multi-Agent Reinforcement Learning

作者: Hao Ma, Zhiqiang Pu, Yi Pan, Boyin Liu, Junlong Gao, Zhenyu Guo

发布时间: 2025-02-24

来源: arxiv

研究方向: 多智能体强化学习（MARL）

主要内容

本文针对多智能体强化学习中可扩展性问题，提出了一种名为因果均值场Q学习（CMFQ）的算法。该算法通过引入因果推理，解决了现有均值场强化学习（MFRL）在非平稳环境中无法识别关键交互的问题，从而提高了算法的鲁棒性和可扩展性。

1. 分析了MFRL在解决可扩展性问题上的瓶颈，并提出了CMFQ算法以进一步缓解非平稳性问题。

2. 通过因果推理量化了每个交互的重要性，并设计了因果感知的紧凑表示来提高合并智能体的表征能力。

3. 在合作-竞争游戏和合作捕食游戏中测试了CMFQ，结果表明该方法在训练和测试中都表现出优异的可扩展性性能。

1. 结构因果模型（SCM）

2. 因果推理

3. 加权求和

4. KL散度

在混合合作-竞争游戏和合作捕食游戏中，CMFQ在训练和测试中都显著优于基线算法。实验结果表明，CMFQ能够有效地识别关键交互，并提高智能体的集体智能水平。

探索除了替换平均行为以外的其他因果推理技术，以开发更鲁棒和可解释的算法。