Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

作者: Maximilian Holsman, Yukun Huang, Bhuwan Dhingra

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理,大语言模型(LLM)推理加速

主要内容

本文提出了模糊投机解码(FSD),这是一种基于目标模型和草稿模型分布差异的解码算法,旨在提高大语言模型(LLM)的推理速度。FSD 通过允许对目标模型分布的轻微偏离,使用户能够灵活地在生成质量和推理速度之间进行权衡。

主要贡献

1. 提出了一种新的解码算法FSD,通过允许对目标模型分布的轻微偏离,实现了比传统投机解码(SD)更高的推理速度。

2. 通过实验证明,FSD 在保持与SD相同精度的同时,实现了超过2个字符/秒的推理速度提升。

3. 通过实验证明,FSD 在允许轻微精度损失的情况下,可以实现高达5个字符/秒的推理速度提升。

4. FSD 提供了一种灵活的精度-运行时权衡机制,使用户能够根据需求调整生成质量和推理速度之间的平衡。

5. FSD 可以与现有的SD方法无缝集成,进一步扩展其加速效果。

研究方法

1. 使用较小的草稿模型(MD)生成候选序列。

2. 使用较大的目标模型(MT)验证候选序列。

3. 根据目标模型和草稿模型之间的分布差异,接受候选序列。

4. 允许用户通过阈值参数T调整接受策略,以平衡生成质量和推理速度。

实验结果

FSD 在多个基准测试中实现了显著的性能提升,包括事实问答、数学和代码生成。FSD 在保持与SD相同精度的同时,实现了超过2个字符/秒的推理速度提升。在允许轻微精度损失的情况下,FSD 实现了高达5个字符/秒的推理速度提升。

未来工作

探索新的分布差异类型,以进一步提高FSD的性能。