MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts

作者: Peijie Wang, Zhongzhi Li, Fei Yin, Dekang Ran, Chenglin Liu

发布时间: 2025-03-03

来源: arxiv

研究方向: 多模态数学推理

主要内容

该研究提出了一种名为MV-MATH的基准数据集,用于评估多模态大型语言模型在多视觉情境下的数学推理能力。数据集包含来自真实K-12场景的2009个高质量数学问题,每个问题都整合了多个图像和文本,并进行了详细的注释。通过实验,研究揭示了当前模型在多视觉数学任务中的挑战,并分析了不同模型的性能和错误模式。

主要贡献

1. 提出了MV-MATH基准数据集,涵盖了多视觉情境下的数学推理问题。

2. 评估了25个多模态大型语言模型在MV-MATH上的性能,揭示了模型与人类能力之间的差距。

3. 分析了不同模型的性能和错误模式,为多视觉数学推理提供了见解。

4. 研究了图像相关性、图像输入方法和问题类型对多视觉数学性能的影响。

5. 通过LLaVA-OV模型的分析,为提高多图像数学任务中的模型性能提供了指导。

研究方法

1. 数据收集和标注:从真实K-12场景中收集数学问题,并进行详细的标注。

2. 数据集构建:使用Mathpix API提取文本和图像,并组织成JSON格式。

3. 实验设计:在MV-MATH上评估了多种多模态大型语言模型,并分析了实验结果。

4. 错误分析:对最佳模型进行了详细的错误分析,并将其分类为视觉感知错误、推理错误、知识错误、计算错误和拒绝错误。

5. 模型分析:分析了LLaVA-OV模型,以了解其性能和潜在改进方向。

实验结果

实验结果表明,当前模型在多视觉数学任务中的表现与人类能力存在较大差距。LLaVA-OV模型在MV-MATH上表现出色,但仍有改进空间。此外,研究还发现,模型在图像依赖任务上的表现不如图像独立任务,序列图像输入优于合并输入,而思维链(CoT)提示并不总是带来改进。

未来工作

未来研究可以集中在以下几个方面:1. 提高模型在多视觉数学推理任务中的性能;2. 探索更有效的图像输入方法;3. 开发新的提示方法来提高模型的推理能力;4. 研究如何利用知识库来提高模型的知识水平。