PairVDN - Pair-wise Decomposed Value Functions
作者: Zak Buzzard
发布时间: 2025-03-14
来源: arxiv
研究方向: 多智能体强化学习(MARL)与深度Q学习(DQN)
主要内容
本文研究了将深度Q学习(DQN)扩展到合作多智能体环境中的挑战,并提出了PairVDN,一种将值函数分解为成对函数的新方法,以改善表达性。
主要贡献
1. 提出了PairVDN,一种新的值函数分解方法,允许表达非单调值函数。
2. 提供了必要的动态规划算法,以有效地优化PairVDN。
3. 在复杂的多智能体环境中证明了方法的有效性,实现了比VDN、QMIX和IQL更好的性能。
研究方法
1. 值分解网络(VDN)
2. QMIX
3. 非单调值函数分解
4. 动态规划算法
5. 多智能体强化学习
实验结果
在Box Jump等环境中,PairVDN实现了比VDN、QMIX和IQL更好的性能,特别是在多个智能体的情况下。实验结果表明,PairVDN可以更好地表示和优化合作行为。
未来工作
探索更复杂的智能体架构,例如包含循环单元的架构,以处理更复杂的任务。研究状态相关权重,进一步提高表达性。考虑动态改变智能体对的组合,以适应动态环境。