Causal Mean Field Multi-Agent Reinforcement Learning

作者: Hao Ma, Zhiqiang Pu, Yi Pan, Boyin Liu, Junlong Gao, Zhenyu Guo

发布时间: 2025-02-24

来源: arxiv

研究方向: 多智能体强化学习(MARL)

主要内容

本文针对多智能体强化学习中可扩展性问题,提出了一种名为因果均值场Q学习(CMFQ)的算法。该算法通过引入因果推理,解决了现有均值场强化学习(MFRL)在非平稳环境中无法识别关键交互的问题,从而提高了算法的鲁棒性和可扩展性。

主要贡献

1. 分析了MFRL在解决可扩展性问题上的瓶颈,并提出了CMFQ算法以进一步缓解非平稳性问题。

2. 通过因果推理量化了每个交互的重要性,并设计了因果感知的紧凑表示来提高合并智能体的表征能力。

3. 在合作-竞争游戏和合作捕食游戏中测试了CMFQ,结果表明该方法在训练和测试中都表现出优异的可扩展性性能。

研究方法

1. 结构因果模型(SCM)

2. 因果推理

3. 加权求和

4. KL散度

实验结果

在混合合作-竞争游戏和合作捕食游戏中,CMFQ在训练和测试中都显著优于基线算法。实验结果表明,CMFQ能够有效地识别关键交互,并提高智能体的集体智能水平。

未来工作

探索除了替换平均行为以外的其他因果推理技术,以开发更鲁棒和可解释的算法。