DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
作者: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
发布时间: 2025-03-03
来源: arxiv
研究方向: 机器人与自动化
主要内容
本文提出了一种名为DexGraspVLA的视觉-语言-动作框架,旨在实现通用灵活抓取。该框架利用预训练的视觉-语言模型作为高级任务规划器,并学习基于扩散的策略作为低级动作控制器。它通过迭代地将多种视觉和语言输入转换为领域不变表示,从而实现模仿学习,并有效缓解了领域偏移问题,从而在真实世界场景中实现鲁棒的泛化。
主要贡献
1. 提出了一种新的视觉-语言-动作框架DexGraspVLA,用于通用灵活抓取。
2. 利用预训练的视觉-语言模型和基于扩散的策略,实现了在复杂场景下的鲁棒泛化。
3. 在未见过的情况下,实现了90%以上的抓取成功率。
4. 通过实验验证了框架设计的有效性,并解释了其泛化性能的原因。
研究方法
1. 预训练的视觉-语言模型作为高级任务规划器
2. 基于扩散的策略作为低级动作控制器
3. 迭代地将视觉和语言输入转换为领域不变表示
4. 模仿学习
5. 领域偏移缓解
实验结果
在未见过的情况下,DexGraspVLA在复杂场景中实现了90%以上的抓取成功率,优于现有的基准方法。此外,实验结果还表明,该框架在不同环境下具有一致的行为,验证了其设计的有效性。
未来工作
进一步改进DexGraspVLA的性能,并将其应用于更广泛的应用场景。例如,可以探索在更小对象或极端杂乱环境中的性能,以及实现功能抓取以进行后续对象使用。