L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling
作者: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
发布时间: 2025-03-07
来源: arxiv
研究方向: 自然语言处理,语言模型,信息论
主要内容
本文研究了长上下文语言模型中的长距离依赖关系,提出了一种基于二分互信息缩放定律的理论框架,并提出了长上下文语言模型条件(L[2]M条件),用于指导长上下文语言模型的设计和发展。
主要贡献
1. 建立了基于放松希尔伯格猜想的二分互信息缩放定律,用于描述自然语言中的长距离依赖关系。
2. 验证了该缩放定律在多个自然语言数据集上的有效性,并观察到一致的幂律增长模式。
3. 提出了长上下文语言模型条件(L[2]M条件),证明了模型的状态大小必须比二分互信息增长得更快,才能有效地进行长上下文建模。
4. 通过实验验证了L[2]M条件,并分析了不同架构的历史状态如何随着序列长度增长而缩放,以及这对它们捕捉长距离依赖关系能力的影响。
研究方法
1. 信息论方法:使用二分互信息来度量文本块之间的统计依赖关系。
2. 机器学习方法:使用最先进的语言模型(如LLaMA和DeepSeek)来近似自然语言的概率分布。
3. 实验方法:在多个数据集上使用不同的语言模型架构进行实验,以验证L[2]M条件。
实验结果
实验结果表明,L[2]M条件可以有效地指导长上下文语言模型的设计。例如,GPT2模型满足L[2]M条件,因此能够有效地建模长距离依赖关系。而Mamba模型虽然具有线性计算复杂度,但不符合L[2]M条件,因此需要更大的模型才能在长上下文建模方面取得与GPT2相当的性能。
未来工作
未来的工作可以包括:设计能够满足L[2]M条件的更高效的架构,开发具有线性计算复杂度的语言模型,以及将L[2]M框架应用于其他领域,如计算机视觉和语音识别。