A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

作者: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen

发布时间: 2025-03-15

来源: arxiv

研究方向: 人工智能,视觉语言模型,对抗攻击

主要内容

本文研究了针对视觉语言模型(LVLMs)的对抗攻击,特别是针对商业黑盒LVLMs的攻击。作者提出了一种名为M-Attack的新方法,该方法通过在局部区域编码语义细节并集中修改语义丰富的区域来提高攻击的有效性。

主要贡献

1. 提出了一种新的对抗攻击方法M-Attack,该方法通过在局部区域编码语义细节并集中修改语义丰富的区域来提高攻击的有效性。

2. 引入了新的关键词匹配率(KMRScore)来量化攻击的可迁移性,并减少了人为偏差。

3. 在多个商业LVLMs上实现了超过90%的成功率,显著优于所有先前的方法。

研究方法

1. 随机裁剪:在每次优化步骤中,对抗图像被随机裁剪,然后调整大小并与其在嵌入空间中对齐。

2. 模型集成:使用多个白盒模型来提取共享语义,并增强扰动质量。

3. 局部匹配:通过裁剪和迭代局部对齐,将目标图像的语义细节编码到局部区域中。

实验结果

M-Attack在多个商业LVLMs上实现了超过90%的成功率,包括GPT-4.5、GPT-4o、Gemini-2.0-flash、Claude-3.5-sonnet、Claude-3.7-sonnet和推理模型o1。此外,M-Attack在KMRScore和ASR(攻击成功率)方面均优于先前的方法。

未来工作

未来工作可以包括探索更复杂的攻击策略,以及提高M-Attack的鲁棒性和泛化能力。此外,可以研究如何将M-Attack应用于其他类型的AI模型,例如自然语言处理模型。