Multi-Task Reinforcement Learning Enables Parameter Scaling

作者: Reginald McLean, Evangelos Chataroulas, Jordan Terry, Isaac Woungang, Nariman Farsad, Pablo Samuel Castro

发布时间: 2025-03-10

来源: arxiv

研究方向: 多任务强化学习(MTRL)

主要内容

本文研究多任务强化学习(MTRL)领域,通过实证分析,探讨参数规模对MTRL性能的影响,以及不同组件(演员和评论家)对参数规模变化的响应差异。

主要贡献

1. 实证评估表明,与复杂的多任务强化学习特定架构相比,使用简单架构进行参数缩放在Meta-World基准测试中超过了性能。

2. 在MTRL设置中,实证确定了评论家缩放比演员缩放提供更大的好处。

3. 发现了一个以前未知的关系:模型大小与任务数量:在大模型中,可以通过增加训练任务来减轻塑性损失。

4. 一个开源代码库,公开提供最终版本,可用于进一步推进MTRL研究。

研究方法

1. 在Meta-World基准测试中实施和基准测试了四种最近的MTRL架构。

2. 使用简单的MTRL基线,将其扩展到与这些架构的参数计数相匹配。

3. 分析评论家和演员的缩放对性能的影响。

4. 研究缩放对模型塑性(持续学习的能力)的影响。

5. 通过增加训练任务的数量来减轻塑性损失。

实验结果

研究发现,简单地扩展基线架构的参数数量可以超越更复杂的架构的性能。评论家比演员从缩放中受益更多。在只有少量任务的训练中,大型模型显示出塑性损失减少的迹象,而训练在更多任务上的类似大小的模型则保持了其适应性。

未来工作

研究可能包括探索如何利用相对较少的参数,但在在线训练时具有更大模型的性能。此外,可以研究在尝试扩展单任务强化学习时引入较小的子任务或参数变化。