Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search

作者: Kou Misaki, Yuichi Inoue, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba

发布时间: 2025-03-07

来源: arxiv

研究方向: 大型语言模型(LLM)推理时间计算扩展

主要内容

该研究提出了一种名为AB-MCTS(自适应分支蒙特卡洛树搜索)的推理时间框架,用于扩展大型语言模型(LLM)的推理时间计算。该方法通过多轮探索和利用,有效地平衡了响应多样性和解决方案细化,从而提高了LLM在复杂任务上的推理性能。

主要贡献

1. 提出了AB-MCTS算法,这是一种自适应分支蒙特卡洛树搜索框架,用于LLM推理时间计算扩展。

2. 引入了同时使用巨大输出空间和解决方案细化作为新的挑战。

3. 在复杂编码和机器学习工程基准测试中对前沿模型进行了实证验证,表明AB-MCTS始终优于现有方法。

研究方法

1. 蒙特卡洛树搜索(MCTS)

2. 贝叶斯后验更新

3. 自适应分支策略

4. Thompson抽样

5. 混合模型

6. 节点聚合

实验结果

在代码竞赛和机器学习工程基准测试中,AB-MCTS在相同的计算预算下,始终优于重复采样和标准MCTS,特别是在较大的生成预算下。这表明AB-MCTS在平衡探索和利用方面非常有效。

未来工作

研究AB-MCTS在更多实际问题中的应用,如开发更鲁棒的方法来处理评分评估器的行为变化,以及开发能够更好地处理无限可能动作的任务。