Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models
作者: Lucy Xiaoyang Shi, Brian Ichter, Michael Equi, Liyiming Ke, Karl Pertsch, Quan Vuong, James Tanner, Anna Walling, Haohuan Wang, Niccolo Fusai, Adrian Li-Bell, Danny Driess, Lachy Groom, Sergey Levine, Chelsea Finn
发布时间: 2025-02-27
来源: arxiv
研究方向: 机器人指令跟随与视觉-语言-动作模型
主要内容
本文提出了一种基于分层视觉-语言-动作模型(VLA)的机器人指令跟随系统Hi Robot,旨在使机器人能够在开放环境中执行复杂任务并处理动态的用户反馈。系统通过高层次的视觉-语言模型(VLM)解析复杂的指令和用户反馈,生成适合的低层次动作指令,再由低层次的VLA模型执行具体动作。该系统能够处理多阶段指令、实时反馈和约束条件,并在多个机器人平台上进行了验证。
主要贡献
1. 提出了Hi Robot系统,首次将视觉-语言模型(VLM)用于高层次推理和低层次动作执行,实现了复杂指令的解析与执行。
2. 引入了合成数据生成方法,通过VLM生成多样化的用户指令和反馈,增强了系统对复杂指令和动态反馈的适应能力。
3. 在多个机器人平台上进行了实验验证,展示了系统在清理桌子、制作三明治和购物等任务中的优越性能。
4. 通过分层结构,系统能够更好地处理多阶段任务和实时反馈,显著提升了指令跟随的准确性和任务完成度。
研究方法
1. 使用视觉-语言模型(VLM)进行高层次推理,生成低层次动作指令。
2. 采用视觉-语言-动作模型(VLA)进行低层次动作执行,直接输出机器人动作。
3. 通过合成数据生成方法,扩展训练数据集,增强系统对复杂指令和反馈的处理能力。
4. 在多个机器人平台上进行实验,包括单臂、双臂和移动机器人,验证系统的通用性和适应性。
实验结果
实验结果表明,Hi Robot在复杂指令跟随和实时反馈处理方面显著优于现有的GPT-4o和扁平VLA模型。在清理桌子、制作三明治和购物等任务中,Hi Robot的指令准确性和任务完成度均高于基线方法。特别是在处理动态用户反馈和约束条件时,Hi Robot表现出更强的适应性和灵活性。
未来工作
未来的研究方向包括将高层次和低层次模型进一步整合,实现更紧密的多层次推理;探索更灵活的高层次和低层次推理交替机制;增强高层次模型对低层次模型执行能力的感知,以生成更合适的指令;以及扩展系统到更多任务和场景中,进一步提升其通用性和适应性。