Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms

作者: Shuoming Zhang, Jiacheng Zhao, Ruiyuan Xu, Xiaobing Feng, Huimin Cui

发布时间: 2025-04-02

来源: arxiv

研究方向: 大型语言模型（LLM）安全

主要内容

该研究主要关注LLM的安全问题，特别是针对LLM中约束解码技术的潜在安全漏洞。研究者们揭示了通过结构化生成来绕过LLM安全机制的新攻击方法，并提出了相应的防御策略。

1. 提出了约束解码攻击（CDA）的概念，这是一种通过操纵LLM生成的控制平面来绕过安全机制的新型攻击方法。

2. 引入了链枚举攻击（Chain Enum Attack），这是一种利用JSON Schema的枚举功能来隐藏恶意内容的CDA实例。

3. 分析了链枚举攻击如何绕过内部和外部防御措施，并提出了改进的强拒绝评估方法。

4. 评估了CDA的有效性，并发现它能够成功绕过多种LLM的安全机制，包括GPT-4o和Gemini-2.0-flash等。

5. 提出了几种可能的缓解策略，以减轻CDA的威胁，包括安全保留语法约束、上下文感知令牌归因和集成安全信号等。

1. 提出了约束解码攻击（CDA）的概念，并设计了链枚举攻击（Chain Enum Attack）作为其实例。

2. 使用多个基准测试来评估CDA的有效性，包括AdvBench、HarmBench、JailbreakBench、SorryBench和StrongREJECT等。

3. 分析了CDA如何绕过内部和外部防御措施，并提出了改进的强拒绝评估方法。

4. 提出了几种可能的缓解策略，以减轻CDA的威胁。

实验结果表明，链枚举攻击可以成功绕过多种LLM的安全机制，包括GPT-4o和Gemini-2.0-flash等。攻击成功率达到96.2%，强拒绝得分为82.6%。

未来工作将集中在改进CDA的检测和防御策略，以及开发新的LLM安全机制，以应对日益增长的安全威胁。