AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

作者: Zhiyuan Zhou, Pranav Atreya, You Liang Tan, Karl Pertsch, Sergey Levine

发布时间: 2025-04-02

来源: arxiv

研究方向: 机器人学习与评估

主要内容

该研究旨在开发一个名为AutoEval的系统,用于自主评估通用机器人操作策略在现实世界中的性能。该系统通过自动化场景重置和成功检测,减少了人工干预,从而提高了评估效率和可靠性。

主要贡献

1. 开发了一个名为AutoEval的系统,实现了通用机器人操作策略的自主评估。

2. 通过使用预训练模型,实现了场景重置和成功检测的自动化。

3. 在BridgeData V2数据集上实现了AutoEval,并展示了其在多个任务上的性能。

4. 通过公开AutoEval代码和平台,促进了机器人学习研究中的公平比较和可重复性。

5. AutoEval显著减少了人工干预,提高了评估效率和可靠性。

研究方法

1. 使用预训练模型进行场景重置和成功检测。

2. 使用行为克隆技术训练重置策略。

3. 使用视觉语言模型进行成功分类。

4. 通过安全检测和故障检测确保机器人安全操作。

5. 使用在线Web界面提交评估任务和监控进度。

实验结果

实验结果表明,AutoEval的评估结果与人工评估结果高度一致,并且比以前的模拟评估方法或离线指标更可靠。AutoEval的吞吐量提高了500倍,每天可以进行500个评估周期。

未来工作

未来工作将包括提高重置策略和成功分类器的效率,支持更多类型的任务,以及建立分布式评估网络,以促进机器人学习研究中的公平比较和可重复性。