L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
作者: Pranjal Aggarwal, Sean Welleck
研究方向: 自然语言处理与机器学习
该研究旨在通过控制推理语言模型(LLM)的推理长度,实现更高效的计算和更精确的性能。研究者提出了Length Controlled Policy Optimization(LCPO)方法,通过强化学习训练模型,使其在满足用户指定长度约束的同时,优化推理性能。