What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

作者: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma

发布时间: 2025-04-02

来源: arxiv

研究方向: 大型语言模型推理时缩放(TTS)

主要内容

本文提出了一种针对大型语言模型(LLMs)推理时缩放(TTS)的统一、多维框架,该框架从四个核心维度进行结构化分析:要缩放什么(What to Scale)、如何缩放(How to Scale)、在哪里缩放(Where to Scale)以及缩放效果如何(How Well to Scale)。通过对现有方法、应用场景和评估方面的广泛审查,本文提供了对TTS领域的系统理解,并强调了各种技术在整个TTS环境中的独特功能角色。

主要贡献

1. 提出了一个统一的、多维的TTS方法分类法,支持结构化分类、比较和扩展。

2. 对TTS领域进行了系统性的文献组织和实用分析,为研究应用和部署提供了指导。

3. 确定了TTS领域的挑战和机遇,并为未来的研究方向提供了见解。

研究方法

1. 监督微调(SFT)

2. 强化学习(RL)

3. 提示策略

4. 解码策略

5. 自我重复策略

6. 混合模型策略

7. 输出验证

8. 过程验证

9. 搜索

10. 聚合

11. 并行缩放

12. 顺序缩放

13. 混合缩放

14. 内部缩放

实验结果

本文通过广泛的文献综述,展示了TTS方法在不同任务和应用场景中的效果,并提供了评估TTS方法性能的指标,包括准确性、效率、可控性和可扩展性。

未来工作

未来研究应集中在以下几个方面:进一步提高缩放能力、阐明TTS技术的本质、将TTS方法推广到更多任务、优化TTS方法的效率和可扩展性。