Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search
作者: Kou Misaki, Yuichi Inoue, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba
发布时间: 2025-03-07
来源: arxiv
研究方向: 大型语言模型(LLM)推理时间计算扩展
主要内容
该研究提出了一种名为AB-MCTS(自适应分支蒙特卡洛树搜索)的推理时间框架,用于扩展大型语言模型(LLM)的推理时间计算。该方法通过多轮探索和利用,有效地平衡了响应多样性和解决方案细化,从而提高了LLM在复杂任务上的推理性能。
主要贡献
1. 提出了AB-MCTS算法,这是一种自适应分支蒙特卡洛树搜索框架,用于LLM推理时间计算扩展。
2. 引入了同时使用巨大输出空间和解决方案细化作为新的挑战。
3. 在复杂编码和机器学习工程基准测试中对前沿模型进行了实证验证,表明AB-MCTS始终优于现有方法。
研究方法
1. 蒙特卡洛树搜索(MCTS)
2. 贝叶斯后验更新
3. 自适应分支策略
4. Thompson抽样
5. 混合模型
6. 节点聚合
实验结果
在代码竞赛和机器学习工程基准测试中,AB-MCTS在相同的计算预算下,始终优于重复采样和标准MCTS,特别是在较大的生成预算下。这表明AB-MCTS在平衡探索和利用方面非常有效。
未来工作
研究AB-MCTS在更多实际问题中的应用,如开发更鲁棒的方法来处理评分评估器的行为变化,以及开发能够更好地处理无限可能动作的任务。