HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents

作者: Tristan Tomilin, Meng Fang, Mykola Pechenizkiy

发布时间: 2025-03-12

来源: arxiv

研究方向: 视觉基础安全强化学习

主要内容

本文介绍了HASARD,这是一个针对视觉基础安全强化学习(Safe RL)的基准测试套件。HASARD旨在解决现有视觉基准测试仅考虑简单导航任务的不足,提供了一个包含多种复杂任务的3D环境,以评估和比较Safe RL方法。

主要贡献

1. 开发了一套包含六个新环境的ViZDoom基准测试,以模拟复杂的3D场景。

2. 将环境与Sample-Factory集成,实现了快速模拟和训练,并公开了HASARD。

3. 在HASARD环境中评估了六个流行的基线方法,揭示了在平衡任务性能与安全约束方面的关键不足,并指导了Safe RL的未来研究。

研究方法

1. 使用ViZDoom平台和Sample-Factory框架进行快速模拟和训练。

2. 设计具有不同难度级别和行动空间的环境,以评估Safe RL方法的性能。

3. 通过可视化代理在训练过程中的导航,使用顶向下热图来提供对学习方法过程的洞察。

4. 通过逐步训练不同难度级别,提供隐式学习课程。

5. 评估了六种流行的基线方法,包括PPO、PPOCost、PPOLag、PPOSauté、PPOPID和P3O。

实验结果

实验结果表明,HASARD为Safe RL方法提供了具有挑战性的测试环境。基线方法在平衡任务性能与安全约束方面存在挑战。PPOPID在多个环境中表现出色,证明了其在Safe RL中的潜力。

未来工作

未来工作将包括引入多约束、多智能体场景、转移/持续/多任务学习,以及扩展基准测试以支持更复杂和真实的场景。