Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation

作者: Wenhui Zhang, Huiyu Xu, Zhibo Wang, Zeqing He, Ziqi Zhu, Kui Ren

发布时间: 2025-03-11

来源: arxiv

研究方向: 小语言模型（SLM）的安全性和抗篡改能力

主要内容

本文研究了小语言模型（SLM）在面临篡改攻击时的脆弱性，特别是针对OWASP将“jailbreak攻击”列为大型语言模型（LLM）的主要威胁之一。通过对63个SLM进行大规模实证研究，评估了其对8种先进的jailbreak方法的敏感性，并分析了影响SLM脆弱性的关键因素。

1. 开发了一个用于评估SLM对jailbreak攻击脆弱性的通用框架。

2. 首次对SLM的jailbreak攻击脆弱性进行了大规模评估。

3. 分析了影响SLM脆弱性的关键因素，包括模型大小、模型架构、训练数据集和训练技术。

4. 评估了三种提示级防御方法的有效性，并指出了现有防御措施的局限性。

5. 强调了在SLM开发中采用安全设计方法的紧迫性，并为构建更可靠的SLM生态系统提供了有价值的见解。

1. 选择15个主流SLM家族的63个模型，涵盖从100MB到7B的参数规模。

2. 使用8种主流jailbreak方法进行攻击，包括5种白盒方法和3种黑盒技术。

3. 采用70个jailbreak问题的分类平衡数据集，涵盖14个风险类别。

4. 评估指标包括攻击成功率（ASR）、重复率、词汇多样性、自我BLEU、困惑度、可读性和连贯性得分。

5. 测试了三种提示级防御方法：困惑度、重标记和自我提醒。

研究发现，大多数SLM对jailbreak攻击高度脆弱，平均ASR超过0.4，其中38.1%的SLM甚至无法抵抗直接有害查询。模型大小与脆弱性之间没有显著相关性，而训练数据集和训练技术对安全性有显著影响。此外，现有的防御方法在所有SLM和不同的攻击方法中都不能达到完美的性能。

未来的工作可以包括：开发更有效的防御方法，研究特定领域SLM的安全问题，以及探索新的训练技术以提高SLM的安全性。