MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

作者: Chanwoo Park, Seungju Han, Xingzhi Guo, Asuman Ozdaglar, Kaiqing Zhang, Joo-Kyung Kim

发布时间: 2025-02-27

来源: arxiv

研究方向: 多智能体强化学习与大型语言模型协同

主要内容

本文提出了一种名为MAPoRL(多智能体后协同训练)的新范式,旨在通过强化学习促进多个大型语言模型(LLMs)之间的协作。该范式通过多智能体强化学习(MARL)实现多个LLMs的协同训练,以提升LLMs在协作任务中的性能。

主要贡献

1. 提出了一种新的后训练范式MAPoRL,通过强化学习促进多个LLMs的协作。

2. 设计了奖励塑造机制,通过奖励和惩罚激励LLMs进行有效的协作。

3. 通过实验验证了MAPoRL在数学推理和自然语言推理等任务上的有效性。

4. 证明了MAPoRL训练的LLMs具有跨领域迁移能力,能够应用于不同的任务。

5. 展示了MAPoRL在异构LLMs协同学习中的有效性。

研究方法

1. 多智能体强化学习(MARL)

2. 多智能体后协同训练(MAPoRL)

3. 奖励塑造

4. 验证器模型

5. 多智能体策略优化

实验结果

实验结果表明,MAPoRL训练的LLMs在数学推理和自然语言推理等任务上表现出显著的性能提升,并且具有跨领域迁移能力。此外,MAPoRL在异构LLMs协同学习中也表现出有效性。

未来工作

未来工作可以探索以下方向:1)研究新的奖励塑造策略,以进一步促进LLMs的协作;2)将MAPoRL应用于更复杂的协作协议,如共识或分层决策;3)探索如何将MAPoRL扩展到更大规模的LLMs。