ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
作者: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
发布时间: 2025-03-11
来源: arxiv
研究方向: 多模态大语言模型(MLLM)的推理过程评估
主要内容
该研究旨在通过构建一个针对MLLM推理过程的评估基准和指令微调数据集,来提升开源模型在过程评估方面的能力。研究内容包括构建一个多模态、多学科、多难度的基准测试ProJudgeBench,以及一个大规模指令微调数据集ProJudge-173k,并提出了一种动态双阶段微调策略,以增强模型在推理过程中的表现。
主要贡献
1. 构建了ProJudgeBench,一个针对MLLM推理过程评估的多模态、多学科基准测试。
2. 提出了ProJudge-173k,一个用于指令微调的大规模数据集,以提升开源模型的过程评估能力。
3. 提出了动态双阶段微调策略,通过模拟人类专家的行为,增强模型在推理过程中的表现。
4. 通过实验证明了开源模型在经过ProJudge-173k数据集和动态双阶段微调策略的微调后,在过程评估方面的能力得到了显著提升。
研究方法
1. 构建基准测试:通过收集科学问题及其解决方案,并对每个步骤进行人工标注,以构建ProJudgeBench。
2. 数据集构建:通过控制错误注入和真实错误收集两种途径,构建ProJudge-173k数据集。
3. 微调策略:提出动态双阶段微调策略,包括直接评估和合成再评估两个阶段,以增强模型在推理过程中的表现。
4. 实验评估:通过在ProJudgeBench上测试多个模型,评估其在过程评估方面的能力。
实验结果
实验结果表明,开源模型在经过ProJudge-173k数据集和动态双阶段微调策略的微调后,在过程评估方面的能力得到了显著提升,与专有模型之间的性能差距得到了缩小。
未来工作
未来研究可以进一步探索如何提升模型在多模态推理和过程评估方面的能力,例如,可以研究如何利用更复杂的微调策略,或者探索如何将模型应用于更广泛的领域。