HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents
作者: Tristan Tomilin, Meng Fang, Mykola Pechenizkiy
发布时间: 2025-03-12
来源: arxiv
研究方向: 视觉基础安全强化学习
主要内容
本文介绍了HASARD,这是一个针对视觉基础安全强化学习(Safe RL)的基准测试套件。HASARD旨在解决现有视觉基准测试仅考虑简单导航任务的不足,提供了一个包含多种复杂任务的3D环境,以评估和比较Safe RL方法。
主要贡献
1. 开发了一套包含六个新环境的ViZDoom基准测试,以模拟复杂的3D场景。
2. 将环境与Sample-Factory集成,实现了快速模拟和训练,并公开了HASARD。
3. 在HASARD环境中评估了六个流行的基线方法,揭示了在平衡任务性能与安全约束方面的关键不足,并指导了Safe RL的未来研究。
研究方法
1. 使用ViZDoom平台和Sample-Factory框架进行快速模拟和训练。
2. 设计具有不同难度级别和行动空间的环境,以评估Safe RL方法的性能。
3. 通过可视化代理在训练过程中的导航,使用顶向下热图来提供对学习方法过程的洞察。
4. 通过逐步训练不同难度级别,提供隐式学习课程。
5. 评估了六种流行的基线方法,包括PPO、PPOCost、PPOLag、PPOSauté、PPOPID和P3O。
实验结果
实验结果表明,HASARD为Safe RL方法提供了具有挑战性的测试环境。基线方法在平衡任务性能与安全约束方面存在挑战。PPOPID在多个环境中表现出色,证明了其在Safe RL中的潜力。
未来工作
未来工作将包括引入多约束、多智能体场景、转移/持续/多任务学习,以及扩展基准测试以支持更复杂和真实的场景。