The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights

作者: Yufang Liu, Yao Du, Tao Ji, Jianing Wang, Yang Liu, Yuanbin Wu, Aimin Zhou, Mengdi Zhang, Xunliang Cai

发布时间: 2025-03-07

来源: arxiv

研究方向: 多模态数学推理,特别是视觉信息在推理中的作用

主要内容

研究多模态数学推理中视觉信息的作用,发现现有模型对视觉信息的利用不足,并引入HC-M3D数据集以增强模型对视觉信息的依赖。

主要贡献

1. 揭示了现有多模态数学模型对视觉输入依赖的过高估计。

2. 引入了HC-M3D数据集,其中包含1,851个由人类精心选择的样本,确保问题依赖于图像,并提供额外的图像,这些图像看起来相似但会改变正确答案。

3. 证明了提高数学推理中视觉依赖性的挑战,因为结合图像编码器并不有效。

研究方法

1. 构建了一个名为HC-M3D的数据集,其中包含图像和文本问题,要求模型依赖图像来解决数学问题。

2. 通过在图像和文本之间进行配对,然后对配对进行洗牌或移除图像,来评估模型对视觉信息的依赖性。

3. 将多个图像编码器(如CLIP、SigLip和DINO)结合起来,以增强视觉依赖性和最终性能。

实验结果

实验结果表明,现有模型在图像洗牌或移除后性能下降不大,表明模型主要依赖于文本信息。在HC-M3D数据集上,模型未能识别图像中的细微差异,并做出正确的预测。

未来工作

未来工作将集中于构建更高质量的、更依赖于视觉数据的集,改进图像编码器以捕获更细粒度的数学信息,以及设计更好的损失函数来增强模型对视觉模态的依赖。