Causal Mean Field Multi-Agent Reinforcement Learning
作者: Hao Ma, Zhiqiang Pu, Yi Pan, Boyin Liu, Junlong Gao, Zhenyu Guo
发布时间: 2025-02-24
来源: arxiv
研究方向: 多智能体强化学习(MARL)
主要内容
本文针对多智能体强化学习中可扩展性问题,提出了一种名为因果均值场Q学习(CMFQ)的算法。该算法通过引入因果推理,解决了现有均值场强化学习(MFRL)在非平稳环境中无法识别关键交互的问题,从而提高了算法的鲁棒性和可扩展性。
主要贡献
1. 分析了MFRL在解决可扩展性问题上的瓶颈,并提出了CMFQ算法以进一步缓解非平稳性问题。
2. 通过因果推理量化了每个交互的重要性,并设计了因果感知的紧凑表示来提高合并智能体的表征能力。
3. 在合作-竞争游戏和合作捕食游戏中测试了CMFQ,结果表明该方法在训练和测试中都表现出优异的可扩展性性能。
研究方法
1. 结构因果模型(SCM)
2. 因果推理
3. 加权求和
4. KL散度
实验结果
在混合合作-竞争游戏和合作捕食游戏中,CMFQ在训练和测试中都显著优于基线算法。实验结果表明,CMFQ能够有效地识别关键交互,并提高智能体的集体智能水平。
未来工作
探索除了替换平均行为以外的其他因果推理技术,以开发更鲁棒和可解释的算法。