Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers

作者: Shalev Lifshitz, Sheila A. McIlraith, Yilun Du

发布时间: 2025-03-01

来源: arxiv

研究方向: 多智能体验证:测试时计算扩展

主要内容

该研究提出了一种名为多智能体验证(MAV)的测试时计算范式,通过结合多个验证器来提高语言模型(LLM)的性能。研究者们提出了使用方面验证器(AVs)作为验证器的一种可能选择,这些验证器是现成的LLM,被提示来验证输出的不同方面。他们还引入了BoN-MAV,这是一种简单的多智能体验证算法,它结合了最佳-of-n采样和多个验证器。

主要贡献

1. 提出了多智能体验证(MAV)作为一种新的测试时范式,该范式通过在测试时结合多个验证器来提高性能。

2. 提出了方面验证器(AVs),这些是无需额外训练的现成LLM,可以自然地支持使用投票机制结合来自多个异构验证器的验证信号。

3. 证明了BoN-MAV,这是一种简单的多智能体验证算法,它结合了最佳-of-n采样和方面验证器,可以改善各种生成LLM的性能,随着方面验证器的数量和类型的增加而提高性能。

研究方法

1. 最佳-of-n采样

2. 多智能体验证(MAV)

3. 方面验证器(AVs)

4. BoN-MAV算法

实验结果

实验结果表明,BoN-MAV在多个领域和LLM上表现出比最佳-of-n采样和奖励模型验证(RM)以及自洽性(Cons)更有效的扩展模式。此外,还证明了弱到强泛化(弱验证器组合可以改善更强的生成LLM的性能)和自我改进(使用相同的基LLM来生成和验证输出)。

未来工作

未来的工作可以探索更多的验证器,更复杂的聚合方法,以及将多个生成器与多个验证器结合使用。此外,可以通过强化学习直接训练生成器和验证器模型,并探索将多智能体验证用于AI安全和监督。