Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search

作者: Kou Misaki, Yuichi Inoue, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba

发布时间: 2025-03-07

来源: arxiv

研究方向: 大型语言模型（LLM）推理时间计算扩展

主要内容

该研究提出了一种名为AB-MCTS（自适应分支蒙特卡洛树搜索）的推理时间框架，用于扩展大型语言模型（LLM）的推理时间计算。该方法通过多轮探索和利用，有效地平衡了响应多样性和解决方案细化，从而提高了LLM在复杂任务上的推理性能。

1. 提出了AB-MCTS算法，这是一种自适应分支蒙特卡洛树搜索框架，用于LLM推理时间计算扩展。

2. 引入了同时使用巨大输出空间和解决方案细化作为新的挑战。

3. 在复杂编码和机器学习工程基准测试中对前沿模型进行了实证验证，表明AB-MCTS始终优于现有方法。

1. 蒙特卡洛树搜索（MCTS）

2. 贝叶斯后验更新

3. 自适应分支策略

4. Thompson抽样

5. 混合模型

6. 节点聚合

在代码竞赛和机器学习工程基准测试中，AB-MCTS在相同的计算预算下，始终优于重复采样和标准MCTS，特别是在较大的生成预算下。这表明AB-MCTS在平衡探索和利用方面非常有效。

研究AB-MCTS在更多实际问题中的应用，如开发更鲁棒的方法来处理评分评估器的行为变化，以及开发能够更好地处理无限可能动作的任务。