GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks
作者: Haoqiang Kang, Enna Sachdeva, Piyush Gupta, Sangjae Bae, Kwonjoon Lee
发布时间: 2025-03-12
来源: arxiv
研究方向: 视觉语言模型(VLM)与生成流网络(GFlowNets)在多步推理任务中的应用
主要内容
本文提出了一种名为GFlowVLM的框架,该框架利用生成流网络对VLM进行微调,以促进复杂推理任务中多样化解决方案的生成。GFlowVLM将环境建模为非马尔可夫决策过程,允许其捕获长期依赖关系,这对于现实世界应用至关重要。该框架使用基于任务的奖励来微调VLM,使其能够超越现有的微调方法,包括监督微调(SFT)和强化学习(RL)方法。
主要贡献
1. 首次将GFlowNets与VLM集成到端到端设置中,以解决复杂规划任务中多模态、顺序推理的独特挑战。
2. 通过微调VLM使用GFlowNets,提高了其处理复杂推理任务的能力,使推理路径的探索更好地进行,生成多样化的解决方案,并增强了对于分布外任务的泛化能力。
3. 通过广泛的实验,证明了该框架在训练效率、生成任务的成功率和解决方案的多样性方面均优于现有方法。
研究方法
1. 使用GFlowNets对VLM进行微调,以促进多样化解决方案的生成。
2. 将环境建模为非马尔可夫决策过程,以捕获长期依赖关系。
3. 使用基于任务的奖励来微调VLM。
4. 采用思维链(CoT)推理机制,引导VLM进行结构化推理。
5. 使用三种不同的GFlowNets目标函数(Var-TB,SubTB,DB)来微调VLM。
实验结果
实验结果表明,GFlowVLM在多个任务中优于基线方法,包括SFT和RL方法。在NumberLine和Blackjack任务中,GFlowVLM在分布内数据上提高了成功率,在ALFWorld任务中提高了成功率、多样性和泛化能力。此外,GFlowVLM在训练效率方面也优于RL方法。
未来工作
未来工作将集中在多智能体任务设置和替代提示方法上。此外,将探索使用更大的VLM模型,以进一步提高性能。