SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation
作者: Dahun Shin, Dongyeop Lee, Jinseok Chung, Namhoon Lee
发布时间: 2025-02-27
来源: arxiv
研究方向: 深度学习优化与泛化
主要内容
该论文提出了一种名为SASSHA的优化算法,旨在解决近似二阶优化方法在深度学习中的泛化问题。SASSHA通过减少解的尖锐度来提高泛化能力,同时稳定地近似Hessian矩阵。
主要贡献
1. 提出了一种新的优化算法SASSHA,通过减少解的尖锐度来提高深度学习模型的泛化能力。
2. 设计了稳定的Hessian近似方法,以保持算法的稳定性。
3. 实现了懒散的Hessian更新,以提高算法的效率。
4. 在多个基准测试中证明了SASSHA在图像分类和语言模型任务上的优越性能。
研究方法
1. 尖锐度最小化
2. 稳定的Hessian近似
3. 懒散的Hessian更新
4. 平方根预处理
5. 绝对值函数
实验结果
SASSHA在多个基准测试中表现出优异的泛化性能,优于现有的二阶和一阶优化方法,包括SGD、AdamW和SAM。实验结果表明,SASSHA在图像分类和语言模型任务上都取得了显著的性能提升。
未来工作
未来的工作将包括将SASSHA应用于更大规模的模型和数据集,并进一步巩固其理论基础。此外,还将探索SASSHA在更多类型的深度学习任务中的应用,如目标检测和自然语言处理。