Structured Preference Optimization for Vision-Language Long-Horizon Task Planning
作者: Xiwen Liang, Min Lin, Weiqi Ruan, Rongtao Xu, Yuecheng Liu, Jiaqi Chen, Bingqian Lin, Yuzheng Zhuang, Xiaodan Liang
发布时间: 2025-03-03
来源: arxiv
研究方向: 视觉-语言长期任务规划
主要内容
该研究针对视觉-语言长期任务规划中的难题,提出了一种名为Structured Preference Optimization (SPO)的新框架,旨在通过结构化偏好评估和优化训练策略来提升模型的推理能力和决策质量。
主要贡献
1. 提出了一种名为Structured Preference Optimization (SPO)的新框架,通过结构化偏好评估和课程引导学习来增强长期推理。
2. 创建了ExtendaBench,一个包含1509个任务的综合性基准,涵盖了VirtualHome和Habitat 2.0环境中的超短、短、中和长期任务。
3. 通过大量实验验证了SPO在长期任务规划中的优越性能。
研究方法
1. Preference-Based Scoring and Optimization:基于任务相关性、视觉基础和历史一致性对推理链进行系统评估。
2. Curriculum-Guided Training:模型通过从简单到复杂的任务进行渐进式学习,提高其在长期场景中的泛化能力和推理鲁棒性。
3. Direct Preference Optimization (DPO):直接通过偏好标签数据优化模型策略,而不是依赖显式奖励模型。
实验结果
SPO在VirtualHome和Habitat上的实验结果表明,与基线方法相比,SPO在长期任务规划中显著提高了推理质量和最终决策准确性,证明了偏好驱动优化在视觉-语言任务规划中的有效性。
未来工作
将SPO扩展到更大规模模型,以探索其全部潜力。