EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments
作者: Dongping Li, Tielong Cai, Tianci Tang, Wenhao Chai, Katherine Rose Driggs-Campbell, Gaoang Wang
发布时间: 2025-03-12
来源: arxiv
研究方向: 机器人学与自然语言处理
主要内容
本文提出了一种名为EMMOE的基准,旨在评估在开放环境中进行的具有身体智能的移动操作。该基准要求机器人能够理解用户指令并在连续空间中执行长期任务。此外,文章还介绍了EMMOE-100数据集,该数据集包含各种日常任务,并提供了详细的任务注释和失败后的重新规划过程。文章还设计了一个名为HOMIEBOT的复杂代理系统,该系统集成了多种高级和低级模型,并具有多个错误检测和适应机制。
主要贡献
1. 提出了EMMOE,这是第一个用于评估高级和低级具有身体智能任务的统一基准。
2. 收集了EMMOE-100,这是第一个包含COT输出、多样化任务设计、重新规划过程以及SFT和DPO子数据集的日常任务数据集。
3. 设计了HOMIEBOT,这是一个集成了不同层次模型和多个错误检测和适应机制的复杂代理系统。
研究方法
1. 使用Fetch机器人收集EMMOE-100数据集。
2. 设计并实现了HOMIEBOT,该系统包括高级规划(HLP)和低级执行(LLE)。
3. 提出了三种新的评估指标:任务进度(TP)、成功结束率(SER)和成功重新规划率(SRR)。
实验结果
HOMIEBOT在所有指标上均优于基线模型,证明了其在执行复杂日常任务方面的有效性。
未来工作
未来工作将包括在现实世界中进行数据收集和部署,以及探索如何有效地利用历史图像和视频来优化内存机制。此外,还将研究HOMIE如何与家庭成员互动或协作以完成日常任务。