Transformers without Normalization
作者: Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
发布时间: 2025-03-15
来源: arxiv
研究方向: 深度学习,神经网络优化,Transformer架构
主要内容
本文研究了在Transformer架构中替代传统归一化层的方法,提出了一种名为Dynamic Tanh (DyT)的新操作,用于在不需要计算激活统计数据的情况下模拟归一化层的功能。
主要贡献
1. 提出了DyT操作,作为一种替代传统归一化层的方法。
2. 通过实验证明,DyT可以在不牺牲性能的情况下,提高训练和推理速度。
3. 挑战了归一化层在训练现代神经网络中的必要性。
4. 提供了对归一化层特性的实证见解。
5. 对DyT的效率、tanh函数和可学习缩放参数α进行了分析。
6. 将DyT与其他移除归一化层的方法进行了比较,证明了其优越性。
研究方法
1. 实验研究:使用不同的模型和任务评估DyT的性能。
2. 可视化分析:通过可视化输入和输出之间的关系来分析归一化层的行为。
3. 消融实验:通过修改或移除DyT中的某些组件来研究其作用。
4. 比较研究:将DyT与其他移除归一化层的方法进行比较。
实验结果
实验结果表明,DyT在多种任务和模型中都能取得与归一化层相当或更好的性能,并且在某些情况下可以显著提高训练和推理速度。DyT在视觉、语言和DNA序列建模任务中都取得了成功。
未来工作
进一步研究DyT在其他类型的网络架构中的适用性,例如ResNet和VGG等经典卷积神经网络。此外,还可以探索如何优化DyT中的参数,以及如何将其与其他神经网络优化技术结合使用。