Policy Gradient for LQR with Domain Randomization
作者: Tesshu Fujinami, Bruce D. Lee, Nikolai Matni, George J. Pappas
发布时间: 2025-04-02
来源: arxiv
研究方向: 机器人控制与强化学习
主要内容
该研究主要探讨了在具有领域随机化的线性二次调节(LQR)问题中,使用策略梯度方法进行控制器训练的收敛性。领域随机化通过在训练过程中随机化模拟器参数,以增强控制器对真实世界系统变化的鲁棒性。
主要贡献
1. 提出了一个样本平均近似领域随机化目标的方法,并分析了其与原始目标之间的成本差异。
2. 证明了策略梯度算法对于领域随机化LQR问题的收敛性,这是首次证明策略梯度方法对于领域随机化LQR问题的收敛性。
3. 提出了一种基于折扣因子退火的算法,该算法无需初始的联合稳定控制器。
4. 通过实验结果支持了理论发现,并突出了未来工作的方向,包括风险敏感的领域随机化公式和随机策略梯度算法。
研究方法
1. 策略梯度方法
2. 领域随机化
3. 折扣因子退火
4. 样本平均近似
5. 全局收敛分析
实验结果
实验结果表明,所提出的算法能够有效地训练出能够同时稳定多个系统的控制器,并且在样本数量增加时,样本平均成本与领域随机化目标之间的差距逐渐减小。
未来工作
未来工作可能包括放宽异质性的假设、扩展收敛性分析、使用随机梯度下降和风险敏感的领域随机化。