MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions

作者: Zhe Xu, Daoyuan Chen, Zhenqing Ling, Yaliang Li, Ying Shen

发布时间: 2025-03-14

来源: arxiv

研究方向: 视觉语言模型(VLM)的推理能力提升

主要内容

MINDGYM是一种通过合成自挑战问题来增强视觉语言模型(VLM)推理能力的框架。该框架通过三个阶段实现:种子单跳问题合成、挑战多跳问题合成和思维诱导课程微调,旨在提高数据效率、计算效率和模型的泛化能力。

主要贡献

1. 提出了一种基于认知的合成数据合成流程,系统地生成考虑思维深度、思维宽度和跨模态的复杂问题。

2. 展示了自挑战进化的可行性,具有高数据效率和渐进式训练,吸收了显式的人类推理模式。

3. 通过广泛的实验验证了MINDGYM的有效性、实用效率和上下文适应性,并发布了代码和数据以促进多模态推理研究。

研究方法

1. 种子单跳问题合成:生成跨文本(例如,逻辑推理)和多模态上下文(例如,基于图表的查询)的认知问题。

2. 挑战多跳问题合成:通过不同的原则(如连接、视觉-文本对齐)将种子问题结合起来,创建需要更深入推理的多步问题。

3. 思维诱导课程微调:一个结构化的训练管道,从支架推理到独立推理逐步训练模型,将高级推理能力嵌入到模型参数中。

实验结果

在七个基准测试中,MINDGYM在基于文本和多模态场景中均优于先前的方法,在MathVision-Mini等具有挑战性的任务上仅使用400个合成样本就实现了+16%的收益,同时减少了训练和推理的计算成本。通过GPT评分分析,MINDGYM在推理深度和广度方面取得了显著改进(+15.77%的胜率)。

未来工作

将认知关系扩展到动态视觉场景;探索MINDGYM在特定领域(如医学和金融)中的应用;开发用于问题复杂性的自适应评分操作;以及在通用强化学习环境中集成代理以验证数据正确性。