ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning
作者: Ziyu Wan, Yunxiang Li, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen
发布时间: 2025-03-14
来源: arxiv
研究方向: 大型语言模型(LLM)的推理与元思考
主要内容
该研究提出了一种名为ReMA的框架,通过多智能体强化学习(MARL)来促进LLM的元思考能力。该框架将推理过程分解为两个层次:高级元思考智能体负责生成策略和计划,而低级推理智能体则负责执行详细的推理步骤。
主要贡献
1. 引入了多智能体元思考推理过程(MAMRP)的概念,并通过多智能体强化学习进行优化。
2. 在数学推理和LLM作为裁判的任务上进行了广泛的实验,ReMA在这些基准测试中取得了最高的平均性能。
3. 通过消融研究,展示了每个智能体的演变动态,提供了关于元思考推理过程如何增强LLM推理能力的宝贵见解。
研究方法
1. 多智能体强化学习(MARL)
2. 元思考推理过程(MRP)
3. 多智能体元思考推理过程(MAMRP)
4. 强化学习(RL)
5. Proximal Policy Optimization(PPO)
6. REINFORCE++
实验结果
ReMA在数学推理和LLM作为裁判的任务上均优于基线方法,特别是在出样本数据集上表现最佳。
未来工作
将实验扩展到更大规模的LLM和更广泛的数据集,以更好地评估可扩展性和性能提升;将方法扩展到多轮交互;在更多样化的基准测试和任务上进行评估,包括对推理税的分析;探索其他奖励机制和训练策略。