Balcony: A Lightweight Approach to Dynamic Inference of Generative Language Models
作者: Benyamin Jamialahmadi, Parsa Kavehzadeh, Mehdi Rezagholizadeh, Parsa Farinneya, Hossein Rajabzadeh, Aref Jafari, Boxing Chen, Marzieh Tahaei
发布时间: 2025-03-10
来源: arxiv
研究方向: 大规模语言模型动态推理
主要内容
Balcony是一种轻量级的动态推理框架,旨在解决将大型语言模型(LLMs)部署到实际应用中的计算和延迟限制问题。它通过在预训练LLM中选择性插入额外的Transformer层来减少模型深度,从而在不牺牲性能的情况下实现实时适应不同的计算预算。
主要贡献
1. 引入了Balcony,这是一种基于深度的动态推理框架,它使用单个Transformer层在出口点,同时冻结基础模型。
2. 通过在小型数据集上使用自蒸馏损失高效地调整Balcony,与先前的方法相比,大大降低了训练成本,同时优于Flextron、LayerSkip和最先进的压缩方法。
3. 通过消融研究广泛评估了所提出框架,包括在1B参数LLM上的预训练。
研究方法
1. 冻结预训练LLM并在选定的出口点插入额外的Transformer层。
2. 使用自蒸馏损失训练Balcony层,以使Balcony层的输出与完整模型对齐。
3. 在训练过程中冻结基础模型参数和LM头,以保持基础模型性能并简化训练流程。
实验结果
Balcony在LLaMA3-8B模型上实现了最小的性能下降,同时实现了显著的加速。它优于Flextron、LayerSkip以及其他领先的压缩技术,在各种基准测试中表现优异。
未来工作
探索将Balcony扩展到更高效的架构,如MoE和Mamba等状态空间模型,以进一步提高性能和可扩展性。此外,Balcony可以用于自推测解码,以在不降低模型性能的情况下实现加速。