Reinforcement Learning with Curriculum-inspired Adaptive Direct Policy Guidance for Truck Dispatching
作者: Shi Meng, Bin Tian, Xiaotong Zhang
发布时间: 2025-03-03
来源: arxiv
研究方向: 智能矿山管理与调度
主要内容
本文研究了利用强化学习(RL)技术进行卡车调度,以解决露天矿开采中卡车调度算法的复杂性和动态不确定性问题。
主要贡献
1. 提出了一种基于课程启发式自适应直接策略指导的强化学习方法,用于解决卡车调度问题。
2. 将近端策略优化(PPO)算法应用于矿山调度,并针对不均匀决策间隔进行了调整。
3. 引入了最短处理时间策略作为教师策略,通过策略正则化和自适应指导进行引导探索。
4. 在OpenMines环境中进行了评估,结果表明该方法在稀疏和密集奖励设置下均取得了10%的性能提升和更快的收敛速度。
研究方法
1. 强化学习(RL)
2. 近端策略优化(PPO)
3. 课程启发式自适应直接策略指导
4. 最短处理时间策略
5. 时间差分(TD)
6. 广义优势估计(GAE)
7. 教师策略
8. 自适应策略指导系数
实验结果
实验结果表明,该方法在稀疏和密集奖励设置下均取得了10%的性能提升和更快的收敛速度,并且在面对不同规模的卡车车队时,能够保持良好的性能。
未来工作
未来工作可以探索更复杂的模型架构,例如基于微调端到端大型语言模型的神经网络架构,从而引入RL智能体执行语言描述的指令的能力。