Wanda++: Pruning Large Language Models via Regional Gradients

作者: Yifan Yang, Kai Zhen, Bhavana Ganesh, Aram Galstyan, Goeric Huybrechts, Markus Müller, Jonas M. Kübler, Rupak Vignesh Swaminathan, Athanasios Mouchtaris, Sravan Babu Bodapati, Nathan Susanj, Zheng Zhang, Jack FitzGerald, Abhishek Kumar

发布时间: 2025-03-10

来源: arxiv

研究方向: 大型语言模型（LLM）压缩与优化

主要内容

本文提出了一种名为Wanda++的LLM剪枝框架，旨在通过区域梯度来优化LLM的剪枝过程，以实现更高效的推理速度提升和更小的性能影响。

主要贡献

1. 提出了一种使用区域梯度的轻量级剪枝框架Wanda++，在剪枝效率上优于现有方法。

2. 首次利用区域梯度来提高剪枝评分，并提出了一个高效的区域优化方法，以最小化剪枝引起的密集和稀疏解码器输出之间的输出差异。

3. 在语言建模任务中，Wanda++将困惑度提高了高达32%，并有效地推广到下游任务。

4. Wanda++可以与LoRA微调相结合，以实现与Wanda类似的可感知稀疏性微调困惑度提升。

5. Wanda++的剪枝过程轻量级，可以在不到10分钟内对7B LLaMA模型进行剪枝，在单个NVIDIA H100 GPU上运行。

研究方法

1. 使用区域梯度（regional gradients）来评估和剪枝LLM中的权重。

2. 区域梯度评分（RGS）和区域优化器（RO）是Wanda++框架的两个主要组件。

3. RGS通过在损失函数（解码器输出的ℓ2范数）上反向传播来计算区域梯度。

4. RO通过调整权重来最小化密集和剪枝解码器块之间的输出差异。

5. Wanda++框架采用两阶段过程：首先使用RGS进行剪枝，然后使用RO进行快速权重更新。

实验结果

Wanda++在各种LLaMA模型上优于现有方法，包括SparseGPT、Wanda和GBLM。它在语言建模任务中提高了困惑度，并有效地推广到下游任务。Wanda++的剪枝时间短，可以快速地剪枝大型模型，且在性能上优于其他方法。

未来工作

未来可以探索更复杂的区域梯度计算方法，以进一步提高剪枝效率。此外，可以研究如何将Wanda++应用于其他类型的模型和任务，以进一步验证其通用性和有效性。