Policy Gradient for LQR with Domain Randomization

作者: Tesshu Fujinami, Bruce D. Lee, Nikolai Matni, George J. Pappas

发布时间: 2025-04-02

来源: arxiv

研究方向: 机器人控制与强化学习

主要内容

该研究主要探讨了在具有领域随机化的线性二次调节(LQR)问题中,使用策略梯度方法进行控制器训练的收敛性。领域随机化通过在训练过程中随机化模拟器参数,以增强控制器对真实世界系统变化的鲁棒性。

主要贡献

1. 提出了一个样本平均近似领域随机化目标的方法,并分析了其与原始目标之间的成本差异。

2. 证明了策略梯度算法对于领域随机化LQR问题的收敛性,这是首次证明策略梯度方法对于领域随机化LQR问题的收敛性。

3. 提出了一种基于折扣因子退火的算法,该算法无需初始的联合稳定控制器。

4. 通过实验结果支持了理论发现,并突出了未来工作的方向,包括风险敏感的领域随机化公式和随机策略梯度算法。

研究方法

1. 策略梯度方法

2. 领域随机化

3. 折扣因子退火

4. 样本平均近似

5. 全局收敛分析

实验结果

实验结果表明,所提出的算法能够有效地训练出能够同时稳定多个系统的控制器,并且在样本数量增加时,样本平均成本与领域随机化目标之间的差距逐渐减小。

未来工作

未来工作可能包括放宽异质性的假设、扩展收敛性分析、使用随机梯度下降和风险敏感的领域随机化。