GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

作者: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye

发布时间: 2025-03-12

来源: arxiv

研究方向: 视觉语言模型(VLM)与强化学习(RL)

主要内容

本文研究了如何通过强化学习训练视觉语言模型(VLM)在动态视觉环境中进行推理并完成特定目标。针对VLM在复杂任务中容易出现的“思维崩溃”问题,提出了“引导思维强化”(GTR)框架,通过结合自动思维纠正和基于强化学习的优化,提升VLM的决策能力。

主要贡献

1. 提出了GTR框架,通过自动思维纠正和强化学习优化,有效缓解了VLM在复杂任务中的思维崩溃问题。

2. 设计了一个基于现有VLM的插件式VLM纠正模型,自动评估和优化VLM的推理过程。

3. 引入了格式奖励和重复惩罚,提高了思维纠正的准确性和一致性。

4. 采用DAgger方法缓解了思维克隆过程中的分布偏移问题。

5. 在24点游戏和ALFWorld等复杂任务中,GTR实现了比现有方法更高的任务成功率,证明了其有效性和泛化能力。

研究方法

1. 强化学习(RL)

2. 自动思维纠正

3. 过程奖励模型(PRM)

4. 格式奖励和重复惩罚

5. DAgger方法

6. 监督式强化学习(SRL)

7. PPO算法

实验结果

在24点游戏和ALFWorld等复杂任务中,GTR实现了比现有方法更高的任务成功率,证明了其有效性和泛化能力。在24点游戏中,GTR实现了超过300%的任务成功率;在ALFWorld中,GTR表现出了更好的成功率。

未来工作

探索如何将GTR应用于更复杂的任务,例如多轮思维推理和更长的行动序列。此外,研究如何进一步提高VLM的推理能力和决策能力,以应对更复杂的视觉环境和任务。