FANformer: Improving Large Language Models Through Effective Periodicity Modeling

作者: Yihong Dong, Ge Li, Xue Jiang, Yongding Tao, Kechi Zhang, Hao Zhu, Huanyu Liu, Jiazheng Ding, Jia Li, Jinliang Deng, Hong Mei

发布时间: 2025-03-03

来源: arxiv

研究方向: 大型语言模型（LLMs）

主要内容

本文提出了一种名为FANformer的新型LLM架构，通过将傅里叶分析网络（FAN）集成到Transformer的注意力机制中，以实现高效的周期性建模，从而提高LLMs的学习效率和性能。

主要贡献

1. 证明了有效周期性建模可以提升LLMs的学习效率和性能。

2. 提出了FANformer，一种新型LLM架构，通过将FAN集成到注意力机制中，实现了高效的周期性建模，在扩展模型规模和训练token时，始终优于Transformer。

3. 预训练并开源了FANformer-1B，在下游任务上超越了具有相似参数或训练token的开源LLMs。

研究方法

1. 傅里叶分析网络（FAN）

2. 注意力机制

3. 特征投影过程修改

4. 多头ATF模块

5. SwiGLU激活函数

6. 预规范

实验结果

实验结果表明，FANformer在扩展模型参数和训练token时，始终优于Transformer，且仅需69.2%的模型参数或79.7%的训练token即可实现可比性能。FANformer-1B在下游任务上的表现优于具有相似参数或训练token的开源LLMs，并且在使用相同训练token的情况下，超过了参数量是其三倍的LLMs。

未来工作

未来工作将包括：探索更大规模的LLMs训练，将FANformer与其他注意力机制相结合，深入研究周期性在语言建模中的作用机制。