Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction

作者: Baiting Luo, Ava Pettet, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay

发布时间: 2025-03-03

来源: arxiv

研究方向: 强化学习与规划

主要内容

本文研究了在具有高维连续动作空间和随机环境的在线强化学习问题,提出了一种名为 Latent Macro Action Planner (L-MAP) 的方法,通过学习时间扩展的宏动作来降低决策的复杂性。

主要贡献

1. 提出了 L-MAP,一种基于时间抽象的规划方法,用于解决高维连续动作空间中的强化学习问题。

2. 利用 VQ-VAE 对状态-宏动作序列进行离散化,降低了动作空间维度。

3. 引入了蒙特卡洛树搜索 (MCTS) 和渐进式扩展来优化决策过程。

4. 在多个任务上进行了实验,证明了 L-MAP 在处理随机性和高维动作空间方面的有效性。

研究方法

1. Vector Quantized Variational Autoencoder (VQ-VAE)

2. Monte Carlo Tree Search (MCTS)

3. Temporal abstraction

4. Progressive widening

实验结果

L-MAP 在 MuJoCo、Adroit 和 AntMaze 等任务上均优于现有的模型和方法,证明了其在处理随机性和高维动作空间方面的有效性。

未来工作

未来将探索迁移学习来处理新任务,并尝试将 L-MAP 应用于在线学习场景,例如通过风险规避探索策略。