FANformer: Improving Large Language Models Through Effective Periodicity Modeling
作者: Yihong Dong, Ge Li, Xue Jiang, Yongding Tao, Kechi Zhang, Hao Zhu, Huanyu Liu, Jiazheng Ding, Jia Li, Jinliang Deng, Hong Mei
发布时间: 2025-03-03
来源: arxiv
研究方向: 大型语言模型(LLMs)
主要内容
本文提出了一种名为FANformer的新型LLM架构,通过将傅里叶分析网络(FAN)集成到Transformer的注意力机制中,以实现高效的周期性建模,从而提高LLMs的学习效率和性能。
主要贡献
1. 证明了有效周期性建模可以提升LLMs的学习效率和性能。
2. 提出了FANformer,一种新型LLM架构,通过将FAN集成到注意力机制中,实现了高效的周期性建模,在扩展模型规模和训练token时,始终优于Transformer。
3. 预训练并开源了FANformer-1B,在下游任务上超越了具有相似参数或训练token的开源LLMs。
研究方法
1. 傅里叶分析网络(FAN)
2. 注意力机制
3. 特征投影过程修改
4. 多头ATF模块
5. SwiGLU激活函数
6. 预规范
实验结果
实验结果表明,FANformer在扩展模型参数和训练token时,始终优于Transformer,且仅需69.2%的模型参数或79.7%的训练token即可实现可比性能。FANformer-1B在下游任务上的表现优于具有相似参数或训练token的开源LLMs,并且在使用相同训练token的情况下,超过了参数量是其三倍的LLMs。
未来工作
未来工作将包括:探索更大规模的LLMs训练,将FANformer与其他注意力机制相结合,深入研究周期性在语言建模中的作用机制。