Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms

作者: Shuoming Zhang, Jiacheng Zhao, Ruiyuan Xu, Xiaobing Feng, Huimin Cui

发布时间: 2025-04-02

来源: arxiv

研究方向: 大型语言模型(LLM)安全

主要内容

该研究主要关注LLM的安全问题,特别是针对LLM中约束解码技术的潜在安全漏洞。研究者们揭示了通过结构化生成来绕过LLM安全机制的新攻击方法,并提出了相应的防御策略。

主要贡献

1. 提出了约束解码攻击(CDA)的概念,这是一种通过操纵LLM生成的控制平面来绕过安全机制的新型攻击方法。

2. 引入了链枚举攻击(Chain Enum Attack),这是一种利用JSON Schema的枚举功能来隐藏恶意内容的CDA实例。

3. 分析了链枚举攻击如何绕过内部和外部防御措施,并提出了改进的强拒绝评估方法。

4. 评估了CDA的有效性,并发现它能够成功绕过多种LLM的安全机制,包括GPT-4o和Gemini-2.0-flash等。

5. 提出了几种可能的缓解策略,以减轻CDA的威胁,包括安全保留语法约束、上下文感知令牌归因和集成安全信号等。

研究方法

1. 提出了约束解码攻击(CDA)的概念,并设计了链枚举攻击(Chain Enum Attack)作为其实例。

2. 使用多个基准测试来评估CDA的有效性,包括AdvBench、HarmBench、JailbreakBench、SorryBench和StrongREJECT等。

3. 分析了CDA如何绕过内部和外部防御措施,并提出了改进的强拒绝评估方法。

4. 提出了几种可能的缓解策略,以减轻CDA的威胁。

实验结果

实验结果表明,链枚举攻击可以成功绕过多种LLM的安全机制,包括GPT-4o和Gemini-2.0-flash等。攻击成功率达到96.2%,强拒绝得分为82.6%。

未来工作

未来工作将集中在改进CDA的检测和防御策略,以及开发新的LLM安全机制,以应对日益增长的安全威胁。