Provably Correct Automata Embeddings for Optimal Automata-Conditioned Reinforcement Learning
作者: Beyazit Yalcinkaya, Niklas Lauffer, Marcell Vazquez-Chanlatte, Sanjit A. Seshia
发布时间: 2025-03-10
来源: arxiv
研究方向: 强化学习,表示学习,形式规范
主要内容
本文研究了基于自动机的强化学习(Automata-Conditioned Reinforcement Learning),提出了一种理论框架,并证明了其可学习性。通过预训练和冻结自动机嵌入,实现了多任务策略学习的最优性。
主要贡献
1. 建立了基于自动机的强化学习的理论框架,并证明了其可学习性。
2. 提出了一种学习可证明正确的自动机嵌入的方法,保证了最优的多任务策略学习。
3. 实验验证了理论结果,证明了自动机嵌入的正确性可以提升下游策略学习的效果。
研究方法
1. 使用有穷确定自动机(DFA)作为任务表示和策略条件。
2. 预训练和冻结DFA嵌入,以提高学习效率。
3. 使用模拟关系度量(bisimulation metrics)来学习唯一的任务表示。
4. 使用近端策略优化(PPO)算法联合学习策略和嵌入。
实验结果
实验结果表明,通过预训练和冻结DFA嵌入,可以学习到正确的自动机嵌入,从而提升了下游策略学习的效果。
未来工作
未来可以研究更复杂的自动机结构和更有效的学习算法,以提高自动机嵌入的准确性和学习效率。