ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning

作者: Ziyu Wan, Yunxiang Li, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen

发布时间: 2025-03-14

来源: arxiv

研究方向: 大型语言模型(LLM)的推理与元思考

主要内容

该研究提出了一种名为ReMA的框架,通过多智能体强化学习(MARL)来促进LLM的元思考能力。该框架将推理过程分解为两个层次:高级元思考智能体负责生成策略和计划,而低级推理智能体则负责执行详细的推理步骤。

主要贡献

1. 引入了多智能体元思考推理过程(MAMRP)的概念,并通过多智能体强化学习进行优化。

2. 在数学推理和LLM作为裁判的任务上进行了广泛的实验,ReMA在这些基准测试中取得了最高的平均性能。

3. 通过消融研究,展示了每个智能体的演变动态,提供了关于元思考推理过程如何增强LLM推理能力的宝贵见解。

研究方法

1. 多智能体强化学习(MARL)

2. 元思考推理过程(MRP)

3. 多智能体元思考推理过程(MAMRP)

4. 强化学习(RL)

5. Proximal Policy Optimization(PPO)

6. REINFORCE++

实验结果

ReMA在数学推理和LLM作为裁判的任务上均优于基线方法,特别是在出样本数据集上表现最佳。

未来工作

将实验扩展到更大规模的LLM和更广泛的数据集,以更好地评估可扩展性和性能提升;将方法扩展到多轮交互;在更多样化的基准测试和任务上进行评估,包括对推理税的分析;探索其他奖励机制和训练策略。