SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation

作者: Dahun Shin, Dongyeop Lee, Jinseok Chung, Namhoon Lee

发布时间: 2025-02-27

来源: arxiv

研究方向: 深度学习优化与泛化

主要内容

该论文提出了一种名为SASSHA的优化算法，旨在解决近似二阶优化方法在深度学习中的泛化问题。SASSHA通过减少解的尖锐度来提高泛化能力，同时稳定地近似Hessian矩阵。

1. 提出了一种新的优化算法SASSHA，通过减少解的尖锐度来提高深度学习模型的泛化能力。

2. 设计了稳定的Hessian近似方法，以保持算法的稳定性。

3. 实现了懒散的Hessian更新，以提高算法的效率。

4. 在多个基准测试中证明了SASSHA在图像分类和语言模型任务上的优越性能。

1. 尖锐度最小化

2. 稳定的Hessian近似

3. 懒散的Hessian更新

4. 平方根预处理

5. 绝对值函数

SASSHA在多个基准测试中表现出优异的泛化性能，优于现有的二阶和一阶优化方法，包括SGD、AdamW和SAM。实验结果表明，SASSHA在图像分类和语言模型任务上都取得了显著的性能提升。

未来的工作将包括将SASSHA应用于更大规模的模型和数据集，并进一步巩固其理论基础。此外，还将探索SASSHA在更多类型的深度学习任务中的应用，如目标检测和自然语言处理。