Reinforcement Learning with Curriculum-inspired Adaptive Direct Policy Guidance for Truck Dispatching

作者: Shi Meng, Bin Tian, Xiaotong Zhang

发布时间: 2025-03-03

来源: arxiv

研究方向: 智能矿山管理与调度

主要内容

本文研究了利用强化学习(RL)技术进行卡车调度,以解决露天矿开采中卡车调度算法的复杂性和动态不确定性问题。

主要贡献

1. 提出了一种基于课程启发式自适应直接策略指导的强化学习方法,用于解决卡车调度问题。

2. 将近端策略优化(PPO)算法应用于矿山调度,并针对不均匀决策间隔进行了调整。

3. 引入了最短处理时间策略作为教师策略,通过策略正则化和自适应指导进行引导探索。

4. 在OpenMines环境中进行了评估,结果表明该方法在稀疏和密集奖励设置下均取得了10%的性能提升和更快的收敛速度。

研究方法

1. 强化学习(RL)

2. 近端策略优化(PPO)

3. 课程启发式自适应直接策略指导

4. 最短处理时间策略

5. 时间差分(TD)

6. 广义优势估计(GAE)

7. 教师策略

8. 自适应策略指导系数

实验结果

实验结果表明,该方法在稀疏和密集奖励设置下均取得了10%的性能提升和更快的收敛速度,并且在面对不同规模的卡车车队时,能够保持良好的性能。

未来工作

未来工作可以探索更复杂的模型架构,例如基于微调端到端大型语言模型的神经网络架构,从而引入RL智能体执行语言描述的指令的能力。