Automatic Curriculum Design for Zero-Shot Human-AI Coordination

作者: Won-Sang You, Tae-Gwan Ha, Seo-Young Lee, Kyung-Joong Kim

发布时间: 2025-03-11

来源: arxiv

研究方向: 人工智能与人类协作

主要内容

本文研究的是零样本人机协作，即在没有任何人类数据的情况下训练一个ego-agent与人类进行协作。传统的零样本人机协作方法主要集中在提升ego-agent在特定环境中的协作能力，而忽略了其在未见环境中的泛化能力。本文提出了一种基于多智能体无监督环境设计（UED）的自动课程设计方法，通过引入基于回报的效用函数和协同玩家采样，有效地训练ego-agent与人类在多样环境中进行协作。

主要贡献

1. 提出了基于回报的效用函数和协同玩家采样方法，用于零样本人机协作。

2. 证明了该方法在Overcooked-AI环境中使用人类代理和真实人类进行评估时，相较于其他基线模型具有更高的协作性能。

3. 通过实验结果表明，该方法在未见环境中实现了高的人机协作性能。

研究方法

1. 多智能体无监督环境设计（UED）

2. 基于回报的效用函数

3. 协同玩家采样

4. PBT（基于种群的训练）

5. Jensen-Shannon散度

实验结果

本文在Overcooked-AI环境中进行了实验，结果表明，相较于其他基线模型（MAESTRO、Robust PLR和Domain Randomization），该方法在人类代理和真实人类伙伴的协作性能上表现更优。此外，该方法在未见环境和未见伙伴的协作中也表现出了较高的泛化能力。

未来工作

未来计划引入新的指标来促进可学习环境/协同玩家对的采样，并研究如何增加协同玩家池的多样性。