ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning

作者: Ziyu Wan, Yunxiang Li, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen

发布时间: 2025-03-14

来源: arxiv

研究方向: 大型语言模型（LLM）的推理与元思考

主要内容

该研究提出了一种名为ReMA的框架，通过多智能体强化学习（MARL）来促进LLM的元思考能力。该框架将推理过程分解为两个层次：高级元思考智能体负责生成策略和计划，而低级推理智能体则负责执行详细的推理步骤。

1. 引入了多智能体元思考推理过程（MAMRP）的概念，并通过多智能体强化学习进行优化。

2. 在数学推理和LLM作为裁判的任务上进行了广泛的实验，ReMA在这些基准测试中取得了最高的平均性能。

3. 通过消融研究，展示了每个智能体的演变动态，提供了关于元思考推理过程如何增强LLM推理能力的宝贵见解。

1. 多智能体强化学习（MARL）

2. 元思考推理过程（MRP）

3. 多智能体元思考推理过程（MAMRP）

4. 强化学习（RL）

5. Proximal Policy Optimization（PPO）

6. REINFORCE++

ReMA在数学推理和LLM作为裁判的任务上均优于基线方法，特别是在出样本数据集上表现最佳。

将实验扩展到更大规模的LLM和更广泛的数据集，以更好地评估可扩展性和性能提升；将方法扩展到多轮交互；在更多样化的基准测试和任务上进行评估，包括对推理税的分析；探索其他奖励机制和训练策略。