Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals
作者: Hanze Li, Xiande Huang
发布时间: 2025-03-11
来源: arxiv
研究方向: 深度学习,神经网络优化,注意力机制
主要内容
本文针对现有层注意力机制中存在的冗余问题,提出了一种名为ELA(Efficient Layer Attention)的架构,通过量化相邻层的注意力权重之间的相似度来识别并跳过冗余层,从而提高训练效率和模型性能。
主要贡献
1. 提出了一种基于KL散度来评估层注意力网络中冗余的新方法。
2. 引入了一种名为EBQM(Enhanced Beta Quantile Mapping)的创新算法,以跳过冗余的注意力层,同时保持模型稳定性。
3. 提出的ELA架构成功地减少了现有层注意力机制中的冗余,实现了训练速度的约30%提高,并在图像识别和目标检测等任务上提高了性能。
研究方法
1. 使用KL散度来评估相邻层注意力权重的相似度。
2. 引入EBQM算法来预处理KL散度值的分布,使其适合用于剪枝。
3. 通过EBQM算法调整阈值来决定哪些层需要剪枝。
实验结果
在图像分类和目标检测任务上,ELA模型在多个数据集上均优于基线模型,同时在训练时间上也有显著减少。具体来说,ELA在CIFAR-10和CIFAR-100数据集上分别达到了92.45%和71.67%的Top-1准确率,比ResNet-20基线模型分别提高了1.10%和3.72%。在ImageNet-1K数据集上,ELA在ResNet-50和ResNet-101基线模型上分别达到了77.9%和78.8%的Top-1准确率,超过了其基线模型。在目标检测任务上,ELA在COCO2017数据集上实现了40.5%的AP,比SE、ECA和RLA等基线模型分别提高了2.8%、2.5%和1.7%。
未来工作
未来工作可以进一步探索其他类型的网络结构和任务,以及如何将ELA与其他注意力机制结合使用,以进一步提高模型性能。