IDInit: A Universal and Stable Initialization Method for Neural Network Training
作者: Yu Pan, Chaozheng Wang, Zekai Wu, Qifan Wang, Min Zhang, Zenglin Xu
发布时间: 2025-03-07
来源: arxiv
研究方向: 神经网络初始化与训练
主要内容
本文研究了神经网络训练中的初始化方法,提出了一种名为IDInit的全新初始化方法,旨在提高神经网络的收敛速度和稳定性。
主要贡献
1. 提出了一种名为IDInit的初始化方法,通过填充矩阵的方式解决了非方阵权重矩阵中的秩约束问题。
2. 通过引入动量项,解决了使用单位矩阵初始化时可能出现的收敛问题。
3. 针对卷积层,提出了Patch-Maintain卷积初始化方法,以增加特征多样性。
4. 提出了IDIZε方法,通过引入小数值来避免残差块中的死神经元问题。
5. 在多个数据集上进行了实验,结果表明IDInit在提高准确率、减少训练时间和提高稳定性方面具有显著优势。
研究方法
1. 填充矩阵
2. 动量项
3. Patch-Maintain卷积
4. IDIZε方法
5. 实验验证
实验结果
在Cifar10、ImageNet、SST2、TREC-6和BERT等数据集上进行的实验表明,与现有的初始化方法相比,IDInit在提高准确率、减少训练时间和提高稳定性方面具有显著优势。
未来工作
进一步研究IDInit的机制,探索其在更广泛的网络架构和任务中的应用。