SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems

作者: Ziyu Guo, Ray Zhang, Hao Chen, Jialin Gao, Dongzhi Jiang, Jiaze Wang, Pheng-Ann Heng

发布时间: 2025-03-15

来源: arxiv

研究方向: 多模态大型语言模型在科学问题解决中的应用与评估

主要内容

本文介绍了SCIVERSE,一个用于评估大型多模态模型(LMMs)在多模态科学问题解决中知识理解、多模态内容解释和思维链推理能力的新基准。通过将问题转换为不同版本,包括不同知识水平和视觉信息含量,研究者评估了LMMs在科学领域中的专业知识和视觉感知技能。

主要贡献

1. 提出了SCIVERSE,一个针对科学推理的多模态评估基准。

2. 开发了五个问题版本,针对不同的科学推理挑战,解决了现有评估中对知识理解和多模态解释的局限性。

3. 引入了一种科学思维链评估策略,专注于知识回顾和推理演绎中的逐步错误。

研究方法

1. 问题转换:将问题转换为不同版本,包括无知识、轻知识和丰富知识版本,以及视觉丰富和仅视觉版本。

2. 思维链评估:使用GPT-4o对模型响应进行逐步评估,识别知识和推理错误。

3. 实验评估:评估了开源和闭源LMMs在SCIVERSE上的表现,包括准确性和思维链评估指标。

实验结果

实验结果表明,闭源LMMs在科学知识和视觉感知方面优于开源LMMs。然而,两种类型的模型在仅视觉问题上都面临挑战,表明它们在OCR和跨模态理解方面存在局限性。闭源模型在思维链推理方面表现出更强的能力,产生了更高质量的推理步骤。

未来工作

未来工作可以扩展SCIVERSE,包括更多学科和场景,如艺术、商业、医学和社会科学。