Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics

作者: Natalia Koliou, George Vouros

发布时间: 2025-02-24

来源: arxiv

研究方向: 动态博弈与多智能体系统

主要内容

该研究旨在通过将动态博弈转化为经验博弈，并应用进化动态方法（𝛼-Rank）来评估和排名策略配置，从而识别导致稳定行为的智能体联合策略。该方法通过模拟实验，分析策略配置的长期动态，并识别在长期互动中占主导地位的策略。

1. 提出了一种将动态博弈转化为经验博弈的方法，并应用𝛼-Rank来评估和排名策略配置。

2. 通过实验证明了该方法在多智能体图着色问题中的有效性。

3. 提供了一种描述性的框架来解释为什么某些策略配置在长期中占主导地位。

4. 展示了如何使用响应图来可视化策略配置的动态和长期行为。

1. 动态博弈

2. 经验博弈

3. 𝛼-Rank进化方法

4. 深度强化学习（DQN）

5. 图着色问题模拟

6. 响应图

实验结果表明，使用𝛼-Rank评估和排名策略配置可以有效地识别在长期互动中占主导地位的策略。实验中的图着色问题模拟显示了不同策略配置的动态和长期行为，并揭示了策略配置之间的相互作用和演变。

未来的工作将包括将该方法应用于更复杂和大规模的动态博弈，使用机器学习方法从演示中识别不同的游戏风格，并探索能够根据观察到的共玩家行为调整其策略的高级模型。此外，研究还将探索将该方法应用于需要与人类偏好保持一致的动态设置的实际场景。