Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

作者: Maximilian Holsman, Yukun Huang, Bhuwan Dhingra

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理，大语言模型（LLM）推理加速

主要内容

本文提出了模糊投机解码（FSD），这是一种基于目标模型和草稿模型分布差异的解码算法，旨在提高大语言模型（LLM）的推理速度。FSD 通过允许对目标模型分布的轻微偏离，使用户能够灵活地在生成质量和推理速度之间进行权衡。

1. 提出了一种新的解码算法FSD，通过允许对目标模型分布的轻微偏离，实现了比传统投机解码（SD）更高的推理速度。

2. 通过实验证明，FSD 在保持与SD相同精度的同时，实现了超过2个字符/秒的推理速度提升。

3. 通过实验证明，FSD 在允许轻微精度损失的情况下，可以实现高达5个字符/秒的推理速度提升。

4. FSD 提供了一种灵活的精度-运行时权衡机制，使用户能够根据需求调整生成质量和推理速度之间的平衡。

5. FSD 可以与现有的SD方法无缝集成，进一步扩展其加速效果。

1. 使用较小的草稿模型（MD）生成候选序列。

2. 使用较大的目标模型（MT）验证候选序列。

3. 根据目标模型和草稿模型之间的分布差异，接受候选序列。

4. 允许用户通过阈值参数T调整接受策略，以平衡生成质量和推理速度。

FSD 在多个基准测试中实现了显著的性能提升，包括事实问答、数学和代码生成。FSD 在保持与SD相同精度的同时，实现了超过2个字符/秒的推理速度提升。在允许轻微精度损失的情况下，FSD 实现了高达5个字符/秒的推理速度提升。

探索新的分布差异类型，以进一步提高FSD的性能。