A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training

作者: Chengcheng Yan, Jiawei Xu, Qingsong Wang, Zheng Peng

发布时间: 2025-03-12

来源: arxiv

研究方向: 深度学习优化方法

主要内容

该研究提出了一种名为TIAM（Triple-Inertial Accelerated Alternating Minimization）的深度学习模型训练方法，旨在解决现有随机梯度下降（SGD）算法的局限性，如梯度消失、对输入数据敏感和缺乏鲁棒的理论保证。该方法结合了交替最小化（AM）方法和三惯性加速策略，以提高收敛速度和性能。

主要贡献

1. 提出了一个结合三惯性加速策略和专门近似方法的TIAM框架，用于神经网络的训练。

2. 提供了TIAM算法的收敛分析，包括其全局收敛性质和收敛速度。

3. 在四个基准数据集上进行了广泛的实验，验证了TIAM方法的有效性，与现有方法相比，在泛化能力和计算效率方面有显著改进。

4. 对ReLU激活函数及其变体进行了实验分析，证明了算法在不同激活函数上的优越性能和鲁棒性。

研究方法

1. 交替最小化（AM）方法

2. 三惯性加速策略

3. 专门近似方法

4. 收敛分析

5. 实验验证

实验结果

在四个基准数据集上进行的实验表明，与现有的SGD变体、dlADMM和mDLAM等方法相比，TIAM在测试精度、计算效率和鲁棒性方面均有显著改进。此外，对ReLU激活函数及其变体的实验分析也证明了算法的优越性能和鲁棒性。

未来工作

未来计划将随机算法纳入当前框架，采用随机小批量方法，以进一步提高基于交替最小化的神经网络优化算法的效率。