Cost-Optimal Grouped-Query Attention for Long-Context LLMs

作者: Yingfa Chen, Yutong Wu, Xu Han, Zhiyuan Liu, Maosong Sun

发布时间: 2025-03-13

来源: arxiv

研究方向: 大型语言模型(LLM)的优化与高效处理

主要内容

该研究旨在通过优化Transformer架构中的分组查询注意力(GQA)机制,降低LLM在处理长文本时的计算和内存成本,同时保持其语言建模能力。

主要贡献

1. 解耦注意力头数量与隐藏维度,提高计算分配的灵活性。

2. 考虑上下文长度和注意力头配置对计算和内存成本的影响。

3. 建立损失与注意力头配置之间的关系,预测训练前损失。

4. 寻找计算和内存最优的头配置,提高LLM在长文本处理场景中的效率。

5. 提出更准确的计算和内存成本公式,指导成本最优LLM的设计。

研究方法

1. 分组查询注意力(GQA)机制

2. 参数规模、上下文长度和注意力头配置的系统比较

3. 扩展现有的缩放方法,以指导训练和推理过程中成本最优LLM的构建

4. 量化缩放研究,评估不同模型配置的性能、计算成本和内存成本

5. 实验验证不同头配置和上下文长度下的损失预测和性能表现

实验结果

实验结果表明,在处理足够长的序列时,具有较少注意力头的大型模型可以实现更低的损失,同时降低计算和内存成本。此外,研究还发现,在特定成本和/或推理上下文长度下,常用的头配置可能不是最优的。

未来工作

未来工作将集中在以下方面:探索更有效的注意力机制,进一步降低计算和内存成本;研究不同硬件平台上的优化方法,提高LLM在不同场景下的效率;探索LLM在更多领域的应用,如自然语言处理、计算机视觉等。