ToMCAT: Theory-of-Mind for Cooperative Agents in Teams via Multiagent Diffusion Policies
作者: Pedro Sequeira, Vidyasagar Sadhu, Melinda Gervasio
发布时间: 2025-02-27
来源: arxiv
研究方向: 多智能体学习、元学习、心智理论、扩散策略、自适应智能体、团队建模
主要内容
本文提出了一种名为ToMCAT的新框架,用于生成心智理论(ToM)条件轨迹。该框架结合了元学习机制和多元智能体去噪扩散模型,以实现智能体及其队友的规划,并基于智能体的目标和队友的特征进行条件生成。实验在模拟烹饪领域进行,结果表明动态重新规划机制在减少资源使用的同时,不会牺牲团队性能。
主要贡献
1. 提出了一种基于元学习的多智能体心智理论方法,考虑了其他智能体的偏好和行为以及观察者的自身特征。
2. 开发了一种团队行为预测去噪扩散模型,允许基于心智理论推理生成多智能体规划,即使在缺乏先验信息的情况下,也能快速理解和适应队友的偏好和行为。
3. 引入了一种动态条件重新规划机制,允许智能体在与其他智能体交互的同时进行高效的在线自适应,通过计算计划世界状态与实际世界状态之间的差异来实现。
研究方法
1. 心智理论网络(ToMnet):通过元学习,从已知智能体家族生成的数据中学习智能体的偏好和行为,从而进行预测。
2. 多智能体去噪扩散模型(MADiff):基于扩散概率模型,生成智能体及其队友的轨迹,并基于ToM推理进行条件生成。
3. 动态重新规划机制:根据计划世界状态与实际世界状态之间的差异,在必要时动态采样新的轨迹。
实验结果
实验在模拟烹饪领域进行,结果表明:1)动态重新规划机制在减少资源使用的同时,不会牺牲团队性能;2)心智理论推理对于智能体快速适应不同队友至关重要,尤其是在没有提供关于他们的先验信息的情况下。
未来工作
设计联合模型,将ToMnet和MADiff系统结合成一个概率生成模型,允许根据心智理论信息采样多智能体规划;提高ToMCAT智能体对未知队友的鲁棒性;探索该框架在临时团队合作设置中的应用;将ToMCAT应用于从人类数据中推断配置文件,以及探索其在需要嵌套心智理论推理的对抗性设置中的应用。