Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff
作者: Maximilian Holsman, Yukun Huang, Bhuwan Dhingra
发布时间: 2025-03-03
来源: arxiv
研究方向: 自然语言处理,大语言模型(LLM)推理加速
主要内容
本文提出了模糊投机解码(FSD),这是一种基于目标模型和草稿模型分布差异的解码算法,旨在提高大语言模型(LLM)的推理速度。FSD 通过允许对目标模型分布的轻微偏离,使用户能够灵活地在生成质量和推理速度之间进行权衡。
主要贡献
1. 提出了一种新的解码算法FSD,通过允许对目标模型分布的轻微偏离,实现了比传统投机解码(SD)更高的推理速度。
2. 通过实验证明,FSD 在保持与SD相同精度的同时,实现了超过2个字符/秒的推理速度提升。
3. 通过实验证明,FSD 在允许轻微精度损失的情况下,可以实现高达5个字符/秒的推理速度提升。
4. FSD 提供了一种灵活的精度-运行时权衡机制,使用户能够根据需求调整生成质量和推理速度之间的平衡。
5. FSD 可以与现有的SD方法无缝集成,进一步扩展其加速效果。
研究方法
1. 使用较小的草稿模型(MD)生成候选序列。
2. 使用较大的目标模型(MT)验证候选序列。
3. 根据目标模型和草稿模型之间的分布差异,接受候选序列。
4. 允许用户通过阈值参数T调整接受策略,以平衡生成质量和推理速度。
实验结果
FSD 在多个基准测试中实现了显著的性能提升,包括事实问答、数学和代码生成。FSD 在保持与SD相同精度的同时,实现了超过2个字符/秒的推理速度提升。在允许轻微精度损失的情况下,FSD 实现了高达5个字符/秒的推理速度提升。
未来工作
探索新的分布差异类型,以进一步提高FSD的性能。