Mixing Any Cocktail with Limited Ingredients: On the Structure of Payoff Sets in Multi-Objective MDPs and its Impact on Randomised Strategies

作者: James C. A. Main, Mickael Randour

发布时间: 2025-02-27

来源: arxiv

研究方向: 多目标马尔可夫决策过程(Multi-objective Markov Decision Processes, MDPs)与随机策略

主要内容

本文研究了在多目标马尔可夫决策过程中,如何通过有限数量的纯策略混合来近似或精确地获得任何期望收益向量。作者探讨了期望收益集的结构,并分析了随机化策略对策略复杂性的影响。

主要贡献

1. 证明了对于所有策略,存在一个纯策略,其期望收益在字典序上大于或等于任何期望收益向量。

2. 证明了任何期望收益向量都是纯策略期望收益的凸组合。

3. 证明了任何极端点都可以通过纯策略获得。

4. 提供了关于期望收益集闭合性的充分条件。

5. 展示了如何通过有限支持混合策略近似任何期望收益向量。

6. 为连续的普遍平方可积收益函数证明了期望收益集的闭合性。

研究方法

1. 拓扑学

2. 凸集的性质(分离超平面和支持超平面)

3. 勒贝格积分理论

实验结果

通过理论分析和示例证明,有限支持混合策略足以近似或精确地获得任何期望收益向量。

未来工作

进一步研究不同类型收益函数的期望收益集结构,以及如何更有效地利用随机化策略。