Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control
作者: Taeho Lee, Donghwan Lee
发布时间: 2025-03-03
来源: arxiv
研究方向: 无人机控制、深度强化学习、鲁棒控制
主要内容
本文提出了鲁棒确定性策略梯度(RDPG)算法,用于解决无人机控制中的干扰抑制问题。RDPG通过将H∞控制问题转化为双人零和动态博弈,增强了深度强化学习算法的鲁棒性。同时,结合TD3算法,提出了鲁棒深度确定性策略梯度(RDDPG),进一步提升了控制策略的稳定性和学习效率。
主要贡献
1. 1. 提出了RDPG算法,通过动态博弈和H∞控制方法增强了深度强化学习算法的鲁棒性。
2. 2. 设计了RDDPG算法,结合了RDPG和TD3算法的优势,提高了控制策略的稳定性和学习效率。
3. 3. 开发了针对无人机应用的鲁棒跟踪控制策略,并通过实验证明了其有效性。
研究方法
1. 1. H∞控制方法:通过优化控制器,最小化干扰对系统性能的影响。
2. 2. 双人零和动态博弈:将H∞控制问题转化为博弈问题,其中一方(用户)试图最小化成本,而另一方(对手)则试图最大化成本。
3. 3. 深度强化学习:利用神经网络实现策略的学习和优化。
4. 4. TD3算法:结合延迟策略更新和延迟目标网络,提高了算法的稳定性和学习效率。
实验结果
实验结果表明,RDDPG在干扰抑制和跟踪控制方面均优于其他深度强化学习算法。在引入不同风速干扰的测试中,RDDPG能够有效地控制无人机跟踪预定路径,即使在恶劣的干扰条件下也能保持较高的精度。
未来工作
1. 探索将RDPG算法应用于其他类型的无人机控制问题。2. 研究更加复杂的干扰环境下的无人机控制问题。3. 研究将RDDPG算法与其他优化算法相结合,进一步提升控制效果。