LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression

作者: Souvik Kundu, Anahita Bhiwandiwalla, Sungduk Yu, Phillip Howard, Tiep Le, Sharath Nittur Sridhar, David Cobbley, Hao Kang, Vasudev Lal

发布时间: 2025-03-10

来源: arxiv

研究方向: 视觉语言模型(LVLM)压缩及其对社会影响的研究

主要内容

本文研究了视觉语言模型(LVLM)在压缩过程中的表现,特别是对多模态输入驱动的生成性能的影响。研究者提出了LVLM-Compress-Bench框架,用于评估压缩对LVLM性能的影响,包括图像识别、知识、语言生成、空间感知、视觉推理、幻觉和视觉错觉识别、毒性、刻板印象和偏见等多个方面。

主要贡献

1. 提出了LVLM-Compress-Bench框架,用于评估LVLM压缩对性能和伦理影响。

2. 研究了静态权重压缩和动态KV缓存压缩对LVLM性能的影响。

3. 在多个多模态数据集上进行了实验,包括MM-Vet、TextVQA、GQA、MME、ScienceQA、VQAv2、POPE、HallusionBench、PAIRS和SocialCounterfactuals。

4. 分析了不同压缩方法和位宽对性能和伦理指标的影响。

5. 开源了LVLM-Compress-Bench框架,以促进社区对压缩影响的深入理解。

研究方法

1. 使用LVLM-Compress-Bench框架进行性能评估。

2. 采用AWQ(激活感知权重量化)和多种KV缓存量化方法(均匀量化、异常值减少量化、分组量化)进行压缩。

3. 在多个多模态数据集上进行实验,包括VQA和推理、可信度等。

4. 分析了不同压缩方法和位宽对性能和伦理指标的影响。

实验结果

实验结果表明,LVLM压缩对性能和伦理指标有显著影响。使用组内量化(g-KC128VT128)可以保持较高的准确性,同时减少内存占用。在低精度量化(如2位)下,性能和可信度指标与基线模型相似。此外,AWQ(激活感知权重量化)和KV缓存压缩方法可以相互补充,从而进一步提高内存节省。

未来工作

未来工作将包括对更多压缩方法的研究,如剪枝和低秩分解。此外,将进一步完善评估系统,以更全面地捕获压缩模型对社会的影响。