Perceiving, Reasoning, Adapting: A Dual-Layer Framework for VLM-Guided Precision Robotic Manipulation

作者: Qingxuan Jia, Guoqin Tang, Zeyuan Huang, Zixuan Hao, Ning Ji, Shihang, Yin, Gang Chen

发布时间: 2025-03-10

来源: arxiv

研究方向: 机器人视觉语言模型（VLM）在精密操作中的应用

主要内容

本文提出了一种基于视觉语言模型（VLM）的渐进式规划算法，用于机器人精密操作。该算法通过将复杂任务分解为子动作，并维护任务记忆结构、2D拓扑图和3D空间网络等关键数据结构，实现了高精度的空间语义融合。这些组件共同积累和存储关键信息，为任务导向的VLM交互机制提供丰富的上下文，从而实现动态调整引导、生成精确动作计划和逐步错误纠正。

主要贡献

1. 提出了一种双层空间语义融合框架，使VLM能够理解复杂的空间配置，而无需3D特定训练。

2. 设计了一种时空记忆框架，用于跟踪复杂环境中物体的位置、语义和任务进度。

3. 提出了一种渐进式VLM交互策略，根据环境、经验和任务历史调整机器人引导。

4. 在复杂组装任务上进行了实验验证，证明了算法能够有效地引导机器人快速、精确地完成精细操作。

5. 实现了毫米级精度的最终组装，同时保持实时性能。

研究方法

1. 渐进式VLM规划算法

2. 任务记忆结构

3. 2D拓扑图和3D空间网络

4. 时空记忆框架

5. 动态提示工程

6. 任务记忆维护系统

实验结果

实验结果表明，与纯VLM方法相比，该算法在精度关键任务上实现了高达91.01%的成功率。实验还表明，当移除关键组件时，性能会显著下降，验证了双层表示和自适应执行策略的重要性。

未来工作

未来工作将集中在以下几个方面：进一步优化VLM与机器人操作的集成，提高算法的鲁棒性和泛化能力；探索更有效的任务记忆和交互策略；研究在更多复杂场景中的应用，如动态环境下的操作等。