Fast Adversarial Training against Sparse Attacks Requires Loss Smoothing

作者: Xuyang Zhong, Yixiao Huang, Chen Liu

发布时间: 2025-03-03

来源: arxiv

研究方向: 网络安全与机器学习

主要内容

该论文研究了针对稀疏对抗扰动的快速对抗训练,特别是针对由l0范数约束的扰动。论文分析了在快速对抗训练中使用单步攻击的挑战,包括性能下降和灾难性过拟合(CO)。论文提出了一种名为Fast-LS-l0的方法,通过引入软标签和权衡损失函数来平滑对抗损失景观,从而提高快速对抗训练的性能。

主要贡献

1. 揭示了快速l0对抗训练中的灾难性过拟合(CO)是由单步攻击的子优化扰动位置引起的。

2. 从理论和实证分析中揭示了l0对抗训练的损失景观比其l∞、l2和l1对应物更崎岖,这进一步加剧了CO。

3. 提出了Fast-LS-l0方法,该方法结合了软标签和权衡损失函数来平滑对抗损失景观,从而提高了快速对抗训练的性能。

4. 通过实验证明了Fast-LS-l0方法可以克服灾难性过拟合的挑战,实现最先进的性能,并缩小了一步和多步对抗训练之间的性能差距。

研究方法

1. 软标签

2. 权衡损失函数

3. 理论分析

4. 实证分析

5. 实验验证

实验结果

实验结果表明,Fast-LS-l0方法可以显著提高快速对抗训练的性能,并缩小了一步和多步对抗训练之间的性能差距。该方法在多个数据集上取得了最先进的性能。

未来工作

将算法扩展到生成结构化稀疏扰动,其中扰动的位置被限制在特定区域,如块、列或任何自定义模式。此外,将探索其他引起深度学习社区关注的问题,例如机器反学习和用于社会良知的对抗机器学习。