A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training

作者: Chengcheng Yan, Jiawei Xu, Qingsong Wang, Zheng Peng

发布时间: 2025-03-12

来源: arxiv

研究方向: 深度学习优化方法

主要内容

该研究提出了一种名为TIAM(Triple-Inertial Accelerated Alternating Minimization)的深度学习模型训练方法,旨在解决现有随机梯度下降(SGD)算法的局限性,如梯度消失、对输入数据敏感和缺乏鲁棒的理论保证。该方法结合了交替最小化(AM)方法和三惯性加速策略,以提高收敛速度和性能。

主要贡献

1. 提出了一个结合三惯性加速策略和专门近似方法的TIAM框架,用于神经网络的训练。

2. 提供了TIAM算法的收敛分析,包括其全局收敛性质和收敛速度。

3. 在四个基准数据集上进行了广泛的实验,验证了TIAM方法的有效性,与现有方法相比,在泛化能力和计算效率方面有显著改进。

4. 对ReLU激活函数及其变体进行了实验分析,证明了算法在不同激活函数上的优越性能和鲁棒性。

研究方法

1. 交替最小化(AM)方法

2. 三惯性加速策略

3. 专门近似方法

4. 收敛分析

5. 实验验证

实验结果

在四个基准数据集上进行的实验表明,与现有的SGD变体、dlADMM和mDLAM等方法相比,TIAM在测试精度、计算效率和鲁棒性方面均有显著改进。此外,对ReLU激活函数及其变体的实验分析也证明了算法的优越性能和鲁棒性。

未来工作

未来计划将随机算法纳入当前框架,采用随机小批量方法,以进一步提高基于交替最小化的神经网络优化算法的效率。