Automatic Curriculum Design for Zero-Shot Human-AI Coordination
作者: Won-Sang You, Tae-Gwan Ha, Seo-Young Lee, Kyung-Joong Kim
发布时间: 2025-03-11
来源: arxiv
研究方向: 人工智能与人类协作
主要内容
本文研究的是零样本人机协作,即在没有任何人类数据的情况下训练一个ego-agent与人类进行协作。传统的零样本人机协作方法主要集中在提升ego-agent在特定环境中的协作能力,而忽略了其在未见环境中的泛化能力。本文提出了一种基于多智能体无监督环境设计(UED)的自动课程设计方法,通过引入基于回报的效用函数和协同玩家采样,有效地训练ego-agent与人类在多样环境中进行协作。
主要贡献
1. 提出了基于回报的效用函数和协同玩家采样方法,用于零样本人机协作。
2. 证明了该方法在Overcooked-AI环境中使用人类代理和真实人类进行评估时,相较于其他基线模型具有更高的协作性能。
3. 通过实验结果表明,该方法在未见环境中实现了高的人机协作性能。
研究方法
1. 多智能体无监督环境设计(UED)
2. 基于回报的效用函数
3. 协同玩家采样
4. PBT(基于种群的训练)
5. Jensen-Shannon散度
实验结果
本文在Overcooked-AI环境中进行了实验,结果表明,相较于其他基线模型(MAESTRO、Robust PLR和Domain Randomization),该方法在人类代理和真实人类伙伴的协作性能上表现更优。此外,该方法在未见环境和未见伙伴的协作中也表现出了较高的泛化能力。
未来工作
未来计划引入新的指标来促进可学习环境/协同玩家对的采样,并研究如何增加协同玩家池的多样性。