DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

作者: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen

发布时间: 2025-03-03

来源: arxiv

研究方向: 机器人与自动化

主要内容

本文提出了一种名为DexGraspVLA的视觉-语言-动作框架,旨在实现通用灵活抓取。该框架利用预训练的视觉-语言模型作为高级任务规划器,并学习基于扩散的策略作为低级动作控制器。它通过迭代地将多种视觉和语言输入转换为领域不变表示,从而实现模仿学习,并有效缓解了领域偏移问题,从而在真实世界场景中实现鲁棒的泛化。

主要贡献

1. 提出了一种新的视觉-语言-动作框架DexGraspVLA,用于通用灵活抓取。

2. 利用预训练的视觉-语言模型和基于扩散的策略,实现了在复杂场景下的鲁棒泛化。

3. 在未见过的情况下,实现了90%以上的抓取成功率。

4. 通过实验验证了框架设计的有效性,并解释了其泛化性能的原因。

研究方法

1. 预训练的视觉-语言模型作为高级任务规划器

2. 基于扩散的策略作为低级动作控制器

3. 迭代地将视觉和语言输入转换为领域不变表示

4. 模仿学习

5. 领域偏移缓解

实验结果

在未见过的情况下,DexGraspVLA在复杂场景中实现了90%以上的抓取成功率,优于现有的基准方法。此外,实验结果还表明,该框架在不同环境下具有一致的行为,验证了其设计的有效性。

未来工作

进一步改进DexGraspVLA的性能,并将其应用于更广泛的应用场景。例如,可以探索在更小对象或极端杂乱环境中的性能,以及实现功能抓取以进行后续对象使用。