Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

作者: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev

发布时间: 2025-03-07

来源: arxiv

研究方向: 自然语言处理，人工智能，模型优化

主要内容

本文研究了如何通过训练专门的反馈和编辑模型来提升开放域任务中的推理时间缩放能力。研究者通过收集大量数据，并训练反馈和编辑模型，使得模型能够根据反馈进行响应的编辑，从而提升模型在开放域任务中的表现。

1. 收集并训练了用于反馈和编辑的专用模型，用于提升开放域任务中的推理时间缩放能力。

2. 提出了一个基于反馈和编辑的推理时间缩放系统，通过生成更多的初始响应、反馈和编辑来提升模型性能。

3. 在Arena Hard基准测试中，基于Llama 3家族70B模型的系统达到了92.7的SoTA性能，超过了OpenAI o1-preview-2024-0912和DeepSeek R1。

4. 通过消融实验验证了反馈和编辑模型在提升模型性能中的重要性。

5. 提出了数据蒸馏的方法，将反馈和编辑系统生成的数据用于训练新的模型，进一步提升模型性能。

1. 数据收集：从多个领域收集大量开放域任务的数据，包括编程、多语言、STEM和通用领域。

2. 模型训练：使用监督微调（SFT）、奖励模型（RM）和强化学习（RL）等方法训练反馈和编辑模型。

3. 实验评估：在MT Bench、AlpacaEval和Arena Hard等基准测试中评估模型性能。

4. 数据蒸馏：将反馈和编辑系统生成的数据用于训练新的模型。

实验结果表明，基于反馈和编辑的推理时间缩放系统能够有效提升模型在开放域任务中的性能，并在Arena Hard基准测试中达到了目前最佳水平。

未来工作将包括探索更有效的数据收集和模型训练方法，以及将反馈和编辑系统应用于更多领域和任务。