Generating Robot Constitutions & Benchmarks for Semantic Safety

作者: Pierre Sermanet, Anirudha Majumdar, Alex Irpan, Dmitry Kalashnikov, Vikas Sindhwani

发布时间: 2025-03-12

来源: arxiv

研究方向: 机器人语义安全与宪法AI

主要内容

本文探讨了如何利用大型语言模型(LLM)和视觉语言模型(VLM)来提高机器人的语义安全性。通过构建ASIMOV基准数据集和机器人宪法,研究了如何自动生成机器人宪法,并评估其在提高机器人语义安全性方面的效果。

主要贡献

1. 发布了ASIMOV基准数据集,用于评估和改进机器人基础模型(作为机器人大脑)的语义安全性。

2. 开发了一个框架,从现实世界数据中自动生成机器人宪法,以使用宪法AI机制来引导机器人的行为。

3. 提出了一个新颖的自动修订过程,能够引入行为规则中的细微差别,从而提高与人类偏好的行为可接受性和安全性的契合度。

4. 在ASIMOV基准上测量了使用生成的宪法达到的最高契合率为84.3%,优于没有宪法和人类编写的宪法。

5. 不提倡特定的通用宪法,因为规则需要根据不同的法律、文化和行政环境进行定制;相反,认为从数据中推断出的宪法的人可解释性和可修改性使其成为AI控制机器人行为治理的理想介质。

研究方法

1. 使用文本和图像生成技术生成不希望的情况和来自医院的人类伤害报告。

2. 利用多模态生成模型合成和总结规则,以应对不希望的情况。

3. 自动生成宪法,并探索了通用性和特定性之间的权衡。

4. 评估了不同长度和类型的宪法。

5. 使用自动修订策略提高宪法的契合率。

6. 在真实场景中进行实验,以评估宪法在提高机器人语义安全性方面的效果。

实验结果

实验结果表明,生成的宪法在提高机器人语义安全性方面非常有效,优于没有宪法和人类编写的宪法。使用自动修订策略可以提高宪法的契合率。

未来工作

未来的工作将包括开发更安全、更通用的机器人宪法,并探索如何将这些宪法集成到机器人系统中。此外,还将研究如何提高宪法的人可解释性和可修改性,以及如何将宪法与人类价值观相协调。