FANformer: Improving Large Language Models Through Effective Periodicity Modeling

作者: Yihong Dong, Ge Li, Xue Jiang, Yongding Tao, Kechi Zhang, Hao Zhu, Huanyu Liu, Jiazheng Ding, Jia Li, Jinliang Deng, Hong Mei

发布时间: 2025-03-03

来源: arxiv

研究方向: 大型语言模型(LLMs)

主要内容

本文提出了一种名为FANformer的新型LLM架构,通过将傅里叶分析网络(FAN)集成到Transformer的注意力机制中,以实现高效的周期性建模,从而提高LLMs的学习效率和性能。

主要贡献

1. 证明了有效周期性建模可以提升LLMs的学习效率和性能。

2. 提出了FANformer,一种新型LLM架构,通过将FAN集成到注意力机制中,实现了高效的周期性建模,在扩展模型规模和训练token时,始终优于Transformer。

3. 预训练并开源了FANformer-1B,在下游任务上超越了具有相似参数或训练token的开源LLMs。

研究方法

1. 傅里叶分析网络(FAN)

2. 注意力机制

3. 特征投影过程修改

4. 多头ATF模块

5. SwiGLU激活函数

6. 预规范

实验结果

实验结果表明,FANformer在扩展模型参数和训练token时,始终优于Transformer,且仅需69.2%的模型参数或79.7%的训练token即可实现可比性能。FANformer-1B在下游任务上的表现优于具有相似参数或训练token的开源LLMs,并且在使用相同训练token的情况下,超过了参数量是其三倍的LLMs。

未来工作

未来工作将包括:探索更大规模的LLMs训练,将FANformer与其他注意力机制相结合,深入研究周期性在语言建模中的作用机制。