Quantum-Inspired Reinforcement Learning in the Presence of Epistemic Ambivalence

作者: Alireza Habibi, Saeed Ghoorchian, Setareh Maghsudi

发布时间: 2025-03-07

来源: arxiv

研究方向: 量子增强强化学习与认知不确定性

主要内容

本文研究在存在认知不确定性（认知模糊性）的情况下进行在线决策的复杂性。作者提出了一个名为EA-MDP（认知模糊性马尔可夫决策过程）的新框架，该框架结合了量子力学中的量子状态概念，以理解和控制认知模糊性。该框架使用量子测量技术计算每个可能结果的概率和奖励，并证明了存在最优策略和最优价值函数。此外，还提出了EA-epsilon-greedy Q-learning算法来评估认知模糊性对决策的影响。

主要贡献

1. 提出了EA-MDP框架，以量子力学中的量子状态概念为基础，用于理解和控制认知模糊性。

2. 使用量子测量技术计算每个可能结果的概率和奖励。

3. 证明了EA-MDP框架中存在最优策略和最优价值函数。

4. 提出了EA-epsilon-greedy Q-learning算法，用于评估认知模糊性对决策的影响。

5. 通过两个实验（两状态问题和格子问题）验证了方法的有效性。

研究方法

1. 量子力学中的量子状态和测量理论

2. 马尔可夫决策过程（MDP）

3. Q-learning算法

4. 量子测量技术

实验结果

实验结果表明，使用EA-MDP框架和EA-epsilon-greedy Q-learning算法，代理在存在认知模糊性的情况下能够收敛到最优策略。

未来工作

未来工作可以包括考虑时间依赖性量子状态、时间依赖性结果集或多个纠缠的底层状态。还可以探索在EA-MDP中引入部分状态可观测性或使用非平稳奖励。