MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning
作者: Chanwoo Park, Seungju Han, Xingzhi Guo, Asuman Ozdaglar, Kaiqing Zhang, Joo-Kyung Kim
发布时间: 2025-02-27
来源: arxiv
研究方向: 多智能体强化学习与大型语言模型协同
主要内容
本文提出了一种名为MAPoRL(多智能体后协同训练)的新范式,旨在通过强化学习促进多个大型语言模型(LLMs)之间的协作。该范式通过多智能体强化学习(MARL)实现多个LLMs的协同训练,以提升LLMs在协作任务中的性能。
主要贡献
1. 提出了一种新的后训练范式MAPoRL,通过强化学习促进多个LLMs的协作。
2. 设计了奖励塑造机制,通过奖励和惩罚激励LLMs进行有效的协作。
3. 通过实验验证了MAPoRL在数学推理和自然语言推理等任务上的有效性。
4. 证明了MAPoRL训练的LLMs具有跨领域迁移能力,能够应用于不同的任务。
5. 展示了MAPoRL在异构LLMs协同学习中的有效性。
研究方法
1. 多智能体强化学习(MARL)
2. 多智能体后协同训练(MAPoRL)
3. 奖励塑造
4. 验证器模型
5. 多智能体策略优化
实验结果
实验结果表明,MAPoRL训练的LLMs在数学推理和自然语言推理等任务上表现出显著的性能提升,并且具有跨领域迁移能力。此外,MAPoRL在异构LLMs协同学习中也表现出有效性。
未来工作
未来工作可以探索以下方向:1)研究新的奖励塑造策略,以进一步促进LLMs的协作;2)将MAPoRL应用于更复杂的协作协议,如共识或分层决策;3)探索如何将MAPoRL扩展到更大规模的LLMs。