Quantum-Inspired Reinforcement Learning in the Presence of Epistemic Ambivalence
作者: Alireza Habibi, Saeed Ghoorchian, Setareh Maghsudi
发布时间: 2025-03-07
来源: arxiv
研究方向: 量子增强强化学习与认知不确定性
主要内容
本文研究在存在认知不确定性(认知模糊性)的情况下进行在线决策的复杂性。作者提出了一个名为EA-MDP(认知模糊性马尔可夫决策过程)的新框架,该框架结合了量子力学中的量子状态概念,以理解和控制认知模糊性。该框架使用量子测量技术计算每个可能结果的概率和奖励,并证明了存在最优策略和最优价值函数。此外,还提出了EA-epsilon-greedy Q-learning算法来评估认知模糊性对决策的影响。
主要贡献
1. 提出了EA-MDP框架,以量子力学中的量子状态概念为基础,用于理解和控制认知模糊性。
2. 使用量子测量技术计算每个可能结果的概率和奖励。
3. 证明了EA-MDP框架中存在最优策略和最优价值函数。
4. 提出了EA-epsilon-greedy Q-learning算法,用于评估认知模糊性对决策的影响。
5. 通过两个实验(两状态问题和格子问题)验证了方法的有效性。
研究方法
1. 量子力学中的量子状态和测量理论
2. 马尔可夫决策过程(MDP)
3. Q-learning算法
4. 量子测量技术
实验结果
实验结果表明,使用EA-MDP框架和EA-epsilon-greedy Q-learning算法,代理在存在认知模糊性的情况下能够收敛到最优策略。
未来工作
未来工作可以包括考虑时间依赖性量子状态、时间依赖性结果集或多个纠缠的底层状态。还可以探索在EA-MDP中引入部分状态可观测性或使用非平稳奖励。