Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search

作者: Andy Zhou

发布时间: 2025-03-15

来源: arxiv

研究方向: 大型语言模型(LLM)的安全性与对抗攻击

主要内容

该论文提出了一种名为Siege的多轮对抗攻击框架,用于模拟和评估大型语言模型在多轮对话中安全性逐渐退化的过程。通过树搜索的方法,该框架能够有效地发现模型的安全漏洞,并揭示了模型在多轮对话中的部分合规性累积如何导致最终输出非法内容。

主要贡献

1. 引入了一种新的多轮对抗攻击框架——Siege,用于发现LLM在多轮对话中的安全漏洞。

2. 通过树搜索的方法,有效地减少了查询次数,提高了攻击效率。

3. 提出了部分合规性跟踪机制,能够更准确地评估模型的安全性。

4. 在JailbreakBench数据集上进行了实验,证明了该框架的有效性。

研究方法

1. 树搜索(BFS)策略

2. 部分合规性跟踪

3. 增量策略泄露再利用

4. 攻击者LLM和红队战术

实验结果

在JailbreakBench数据集上,Siege在GPT-3.5-turbo和GPT-4上分别实现了100%和97%的成功率,比现有的Crescendo和GOAT等基线方法更有效且查询次数更少。

未来工作

未来的研究可以进一步探索更复杂的攻击策略,以及如何提高模型的安全性,以应对更高级的攻击。