IDInit: A Universal and Stable Initialization Method for Neural Network Training

作者: Yu Pan, Chaozheng Wang, Zekai Wu, Qifan Wang, Min Zhang, Zenglin Xu

发布时间: 2025-03-07

来源: arxiv

研究方向: 神经网络初始化与训练

主要内容

本文研究了神经网络训练中的初始化方法,提出了一种名为IDInit的全新初始化方法,旨在提高神经网络的收敛速度和稳定性。

主要贡献

1. 提出了一种名为IDInit的初始化方法,通过填充矩阵的方式解决了非方阵权重矩阵中的秩约束问题。

2. 通过引入动量项,解决了使用单位矩阵初始化时可能出现的收敛问题。

3. 针对卷积层,提出了Patch-Maintain卷积初始化方法,以增加特征多样性。

4. 提出了IDIZε方法,通过引入小数值来避免残差块中的死神经元问题。

5. 在多个数据集上进行了实验,结果表明IDInit在提高准确率、减少训练时间和提高稳定性方面具有显著优势。

研究方法

1. 填充矩阵

2. 动量项

3. Patch-Maintain卷积

4. IDIZε方法

5. 实验验证

实验结果

在Cifar10、ImageNet、SST2、TREC-6和BERT等数据集上进行的实验表明,与现有的初始化方法相比,IDInit在提高准确率、减少训练时间和提高稳定性方面具有显著优势。

未来工作

进一步研究IDInit的机制,探索其在更广泛的网络架构和任务中的应用。