Speculative Decoding for Multi-Sample Inference

作者: Yiwei Li, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Xinglin Wang, Yueqi Zhang, Ji Zhang, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li

发布时间: 2025-03-10

来源: arxiv

研究方向: 自然语言处理与机器学习

主要内容

提出了一种针对多样本推理场景的推测解码方法,旨在提高大型语言模型(LLM)在复杂推理任务中的预测准确性和效率。

主要贡献

1. 提出了一种新的推测解码方法,专门用于多样本推理场景。

2. 通过动态分析并行推理路径中的结构模式,该方法能够生成与解码分布一致的高质量草稿标记,而无需辅助模型或外部数据库。

3. 在数学推理基准测试中,该方法在草稿接受率方面比基线方法有显著提高,同时降低了草稿标记构建的延迟。

4. 该方法通过利用并行生成路径的内在一致性,实现了推测解码与基于采样的推理技术的无缝集成,为高效的多样本推理建立了新的范式。

研究方法

1. 动态构建草稿池:通过跨路径后缀搜索,利用并行推理路径中重叠的标记子序列构建动态草稿标记池。

2. 模糊后缀匹配:处理词汇变化,确保语义等效的标记对草稿池的贡献。

3. 基于共识的序列提取:使用有向无环图(DAG)组织候选者,并通过加权搜索提取最可能的标记序列,优先考虑具有强烈共识的路径。

4. 草稿接受检查:通过比较草稿标记与模型条件分布中采样的标记来验证草稿标记,确保生成的序列与标准自回归生成一致,而不会损失精度。

实验结果

在两个数学推理基准测试(GSM8K和MATH)上,使用两个广泛采用的LLM(Llama3-8B-Instruct和Qwen2.5-7B-Instruct)在多样本推理设置下进行评估。该方法在相同的草稿长度下比基线方法实现了更高的标记接受率,并且草稿构建过程具有更低的延迟。

未来工作

探索将该方法与针对批量处理的推测解码方法相结合,以进一步提高时间加速效果;优化概率聚合机制,以降低处理大量并行路径时的开销;验证该方法在开放式生成任务中的泛化能力。