Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms
作者: Shuoming Zhang, Jiacheng Zhao, Ruiyuan Xu, Xiaobing Feng, Huimin Cui
发布时间: 2025-04-02
来源: arxiv
研究方向: 大型语言模型(LLM)安全
主要内容
该研究主要关注LLM的安全问题,特别是针对LLM中约束解码技术的潜在安全漏洞。研究者们揭示了通过结构化生成来绕过LLM安全机制的新攻击方法,并提出了相应的防御策略。
主要贡献
1. 提出了约束解码攻击(CDA)的概念,这是一种通过操纵LLM生成的控制平面来绕过安全机制的新型攻击方法。
2. 引入了链枚举攻击(Chain Enum Attack),这是一种利用JSON Schema的枚举功能来隐藏恶意内容的CDA实例。
3. 分析了链枚举攻击如何绕过内部和外部防御措施,并提出了改进的强拒绝评估方法。
4. 评估了CDA的有效性,并发现它能够成功绕过多种LLM的安全机制,包括GPT-4o和Gemini-2.0-flash等。
5. 提出了几种可能的缓解策略,以减轻CDA的威胁,包括安全保留语法约束、上下文感知令牌归因和集成安全信号等。
研究方法
1. 提出了约束解码攻击(CDA)的概念,并设计了链枚举攻击(Chain Enum Attack)作为其实例。
2. 使用多个基准测试来评估CDA的有效性,包括AdvBench、HarmBench、JailbreakBench、SorryBench和StrongREJECT等。
3. 分析了CDA如何绕过内部和外部防御措施,并提出了改进的强拒绝评估方法。
4. 提出了几种可能的缓解策略,以减轻CDA的威胁。
实验结果
实验结果表明,链枚举攻击可以成功绕过多种LLM的安全机制,包括GPT-4o和Gemini-2.0-flash等。攻击成功率达到96.2%,强拒绝得分为82.6%。
未来工作
未来工作将集中在改进CDA的检测和防御策略,以及开发新的LLM安全机制,以应对日益增长的安全威胁。