Balcony: A Lightweight Approach to Dynamic Inference of Generative Language Models

作者: Benyamin Jamialahmadi, Parsa Kavehzadeh, Mehdi Rezagholizadeh, Parsa Farinneya, Hossein Rajabzadeh, Aref Jafari, Boxing Chen, Marzieh Tahaei

发布时间: 2025-03-10

来源: arxiv

研究方向: 大规模语言模型动态推理

主要内容

Balcony是一种轻量级的动态推理框架，旨在解决将大型语言模型（LLMs）部署到实际应用中的计算和延迟限制问题。它通过在预训练LLM中选择性插入额外的Transformer层来减少模型深度，从而在不牺牲性能的情况下实现实时适应不同的计算预算。

1. 引入了Balcony，这是一种基于深度的动态推理框架，它使用单个Transformer层在出口点，同时冻结基础模型。

2. 通过在小型数据集上使用自蒸馏损失高效地调整Balcony，与先前的方法相比，大大降低了训练成本，同时优于Flextron、LayerSkip和最先进的压缩方法。

3. 通过消融研究广泛评估了所提出框架，包括在1B参数LLM上的预训练。

1. 冻结预训练LLM并在选定的出口点插入额外的Transformer层。

2. 使用自蒸馏损失训练Balcony层，以使Balcony层的输出与完整模型对齐。

3. 在训练过程中冻结基础模型参数和LM头，以保持基础模型性能并简化训练流程。

Balcony在LLaMA3-8B模型上实现了最小的性能下降，同时实现了显著的加速。它优于Flextron、LayerSkip以及其他领先的压缩技术，在各种基准测试中表现优异。

探索将Balcony扩展到更高效的架构，如MoE和Mamba等状态空间模型，以进一步提高性能和可扩展性。此外，Balcony可以用于自推测解码，以在不降低模型性能的情况下实现加速。