Policy Gradient for LQR with Domain Randomization

作者: Tesshu Fujinami, Bruce D. Lee, Nikolai Matni, George J. Pappas

发布时间: 2025-04-02

来源: arxiv

研究方向: 机器人控制与强化学习

主要内容

该研究主要探讨了在具有领域随机化的线性二次调节（LQR）问题中，使用策略梯度方法进行控制器训练的收敛性。领域随机化通过在训练过程中随机化模拟器参数，以增强控制器对真实世界系统变化的鲁棒性。

1. 提出了一个样本平均近似领域随机化目标的方法，并分析了其与原始目标之间的成本差异。

2. 证明了策略梯度算法对于领域随机化LQR问题的收敛性，这是首次证明策略梯度方法对于领域随机化LQR问题的收敛性。

3. 提出了一种基于折扣因子退火的算法，该算法无需初始的联合稳定控制器。

4. 通过实验结果支持了理论发现，并突出了未来工作的方向，包括风险敏感的领域随机化公式和随机策略梯度算法。

1. 策略梯度方法

2. 领域随机化

3. 折扣因子退火

4. 样本平均近似

5. 全局收敛分析

实验结果表明，所提出的算法能够有效地训练出能够同时稳定多个系统的控制器，并且在样本数量增加时，样本平均成本与领域随机化目标之间的差距逐渐减小。

未来工作可能包括放宽异质性的假设、扩展收敛性分析、使用随机梯度下降和风险敏感的领域随机化。