Transformers without Normalization

作者: Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu

发布时间: 2025-03-15

来源: arxiv

研究方向: 深度学习,神经网络优化,Transformer架构

主要内容

本文研究了在Transformer架构中替代传统归一化层的方法,提出了一种名为Dynamic Tanh (DyT)的新操作,用于在不需要计算激活统计数据的情况下模拟归一化层的功能。

主要贡献

1. 提出了DyT操作,作为一种替代传统归一化层的方法。

2. 通过实验证明,DyT可以在不牺牲性能的情况下,提高训练和推理速度。

3. 挑战了归一化层在训练现代神经网络中的必要性。

4. 提供了对归一化层特性的实证见解。

5. 对DyT的效率、tanh函数和可学习缩放参数α进行了分析。

6. 将DyT与其他移除归一化层的方法进行了比较,证明了其优越性。

研究方法

1. 实验研究:使用不同的模型和任务评估DyT的性能。

2. 可视化分析:通过可视化输入和输出之间的关系来分析归一化层的行为。

3. 消融实验:通过修改或移除DyT中的某些组件来研究其作用。

4. 比较研究:将DyT与其他移除归一化层的方法进行比较。

实验结果

实验结果表明,DyT在多种任务和模型中都能取得与归一化层相当或更好的性能,并且在某些情况下可以显著提高训练和推理速度。DyT在视觉、语言和DNA序列建模任务中都取得了成功。

未来工作

进一步研究DyT在其他类型的网络架构中的适用性,例如ResNet和VGG等经典卷积神经网络。此外,还可以探索如何优化DyT中的参数,以及如何将其与其他神经网络优化技术结合使用。