Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments
作者: Zerui Li, Gengze Zhou, Haodong Hong, Yanyan Shao, Wenqi Lyu, Yanyuan Qiao, Qi Wu
发布时间: 2025-02-27
来源: arxiv
研究方向: 视觉与语言导航(Vision-and-Language Navigation, VLN)
主要内容
该研究主要关注在连续环境中,如何通过视觉与语言导航技术使机器人根据人类指令进行导航。研究着重解决人类视角与机器人视角之间的差异,以及单目传感器在真实环境中的局限性。
主要贡献
1. 提出了基于地面视角的导航(Ground-level Viewpoint Navigation, GVNav)方法,以解决人类指令与低视角四足机器人之间的不匹配问题。
2. 通过重建全景输入、增强路径点预测和开发信息收集策略来提高导航性能。
3. 构建了一个大规模的路径点预测数据集,以改善低视角导航任务的泛化能力。
4. 在模拟环境和真实世界部署中,GVNav方法显著提高了导航性能。
研究方法
1. 使用可编程电机旋转RGBD相机以获取全景视觉输入。
2. 通过自注意力机制和Transformer编码器层,从多个视角自适应地收集信息。
3. 构建了一个包含大量低视角视觉输入的大规模路径点预测数据集。
4. 在真实世界中,使用Intel RealSense D455相机和360° TTL可编程齿轮电机进行全景图像采集。
实验结果
GVNav方法在模拟环境和真实世界部署中均取得了显著的性能提升,特别是在低视角条件下。GVNav在所有测试指标上均优于现有方法,包括轨迹长度、导航误差、整体成功率、成功率以及成功加权路径长度。
未来工作
未来工作将包括进一步优化GVNav方法,以使其能够处理更复杂的场景和任务,例如动态环境中的导航、多机器人协同导航等。此外,还将探索更先进的视觉与语言导航方法,以提高机器人在真实世界中的自主导航能力。