SPD: Sync-Point Drop for efficient tensor parallelism of Large Language Models

作者: Han-Byul Kim, Duc Hoang, Arnav Kundu, Mohammad Samragh, Minsik Cho

发布时间: 2025-03-03

来源: arxiv

研究方向: 大型语言模型（LLM）的分布式推理优化

主要内容

该研究提出了一种名为Sync-Point Drop (SPD)的新颖优化技术，用于减少LLM在分布式推理中的通信开销。通过选择性删除注意力输出的同步操作，SPD有效地缓解了通信瓶颈，同时最小化了推理过程中的精度损失。

1. 提出了一种新的块结构设计，以最小化由于缺乏通信而导致的信息损失。

2. 根据模型中每个块的通信敏感性，将它们分为三个不同的类别，允许根据其特性应用定制的优化策略。

3. 通过在LLaMA2-70B上进行的实验，SPD提供了约20%的整体推理延迟降低，同时精度下降不到1%。

1. Sync-Point Drop (SPD)：通过选择性删除注意力输出的同步操作来减少通信开销。

2. 块结构设计：引入了新的块设计，以最小化由于缺乏通信而导致的信息损失。

3. 块敏感度识别：根据每个块的通信敏感性将它们分为不同的类别。

4. 块到块蒸馏：采用块到块蒸馏技术来恢复敏感块的性能。

5. 注意力头分组初始化：引入了一种新的初始化方法，以更好地模拟原始模型的结构。

实验结果表明，SPD可以有效地减少通信开销，同时最小化精度损失。在LLaMA2-70B的推理中，SPD提供了约20%的整体推理延迟降低，同时精度下降不到1%。此外，实验还表明，根据块的敏感性进行块到块蒸馏和注意力头分组初始化可以进一步恢复性能。

未来工作可以进一步探索SPD在其他类型的LLM和不同类型的分布式系统中的应用。此外，还可以研究如何将SPD与其他优化技术结合使用，以进一步提高LLM的推理性能。