A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training
作者: Chengcheng Yan, Jiawei Xu, Qingsong Wang, Zheng Peng
发布时间: 2025-03-12
来源: arxiv
研究方向: 深度学习优化方法
主要内容
该研究提出了一种名为TIAM(Triple-Inertial Accelerated Alternating Minimization)的深度学习模型训练方法,旨在解决现有随机梯度下降(SGD)算法的局限性,如梯度消失、对输入数据敏感和缺乏鲁棒的理论保证。该方法结合了交替最小化(AM)方法和三惯性加速策略,以提高收敛速度和性能。
主要贡献
1. 提出了一个结合三惯性加速策略和专门近似方法的TIAM框架,用于神经网络的训练。
2. 提供了TIAM算法的收敛分析,包括其全局收敛性质和收敛速度。
3. 在四个基准数据集上进行了广泛的实验,验证了TIAM方法的有效性,与现有方法相比,在泛化能力和计算效率方面有显著改进。
4. 对ReLU激活函数及其变体进行了实验分析,证明了算法在不同激活函数上的优越性能和鲁棒性。
研究方法
1. 交替最小化(AM)方法
2. 三惯性加速策略
3. 专门近似方法
4. 收敛分析
5. 实验验证
实验结果
在四个基准数据集上进行的实验表明,与现有的SGD变体、dlADMM和mDLAM等方法相比,TIAM在测试精度、计算效率和鲁棒性方面均有显著改进。此外,对ReLU激活函数及其变体的实验分析也证明了算法的优越性能和鲁棒性。
未来工作
未来计划将随机算法纳入当前框架,采用随机小批量方法,以进一步提高基于交替最小化的神经网络优化算法的效率。