DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models
作者: Yi Shen, Jian Zhang, Jieyun Huang, Shuming Shi, Wenjing Zhang, Jiangze Yan, Ning Wang, Kai Wang, Shiguo Lian
发布时间: 2025-03-07
来源: arxiv
研究方向: 自然语言处理,大型推理模型,自适应推理
主要内容
本文提出了 Difficulty-Adaptive Slow-Thinking (DAST) 框架,该框架能够根据问题难度自动调整 Chain-of-Thought (CoT) 的长度。通过引入 Token Length Budget (TLB) 指标来量化问题难度,并利用长度感知奖励塑造和长度偏好优化来实现 DAST。DAST 对简单任务的过长响应进行惩罚,同时鼓励复杂问题的充分推理。
主要贡献
1. 提出了 Difficulty-Adaptive Slow-Thinking (DAST) 框架,有效缓解了过度推理现象,同时保持了推理性能。
2. 提出了 Token Length Budget (TLB) 指标,适用于多种下游任务。
3. 在多个数据集和模型规模上进行了广泛的验证实验,结果表明 DAST 方法有效缓解了过度推理问题,同时保持了模型的推理能力。
研究方法
1. Token Length Budget (TLB) 指标
2. 长度感知奖励塑造
3. 长度偏好优化
4. SimPO (Simple Preference Optimization)
实验结果
实验结果表明,DAST 方法在 MATH500 和 AIME2024 数据集上均取得了良好的效果,实现了推理长度的适度减少,同时保持了推理能力。在复杂问题上的推理能力得到了显著提升,证明了 DAST 方法在解决复杂问题时的有效性。
未来工作
未来可以进一步研究如何将 DAST 框架应用于其他类型的推理任务,并探索更多有效的自适应推理策略。