Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation

作者: Wenhui Zhang, Huiyu Xu, Zhibo Wang, Zeqing He, Ziqi Zhu, Kui Ren

发布时间: 2025-03-11

来源: arxiv

研究方向: 小语言模型(SLM)的安全性和抗篡改能力

主要内容

本文研究了小语言模型(SLM)在面临篡改攻击时的脆弱性,特别是针对OWASP将“jailbreak攻击”列为大型语言模型(LLM)的主要威胁之一。通过对63个SLM进行大规模实证研究,评估了其对8种先进的jailbreak方法的敏感性,并分析了影响SLM脆弱性的关键因素。

主要贡献

1. 开发了一个用于评估SLM对jailbreak攻击脆弱性的通用框架。

2. 首次对SLM的jailbreak攻击脆弱性进行了大规模评估。

3. 分析了影响SLM脆弱性的关键因素,包括模型大小、模型架构、训练数据集和训练技术。

4. 评估了三种提示级防御方法的有效性,并指出了现有防御措施的局限性。

5. 强调了在SLM开发中采用安全设计方法的紧迫性,并为构建更可靠的SLM生态系统提供了有价值的见解。

研究方法

1. 选择15个主流SLM家族的63个模型,涵盖从100MB到7B的参数规模。

2. 使用8种主流jailbreak方法进行攻击,包括5种白盒方法和3种黑盒技术。

3. 采用70个jailbreak问题的分类平衡数据集,涵盖14个风险类别。

4. 评估指标包括攻击成功率(ASR)、重复率、词汇多样性、自我BLEU、困惑度、可读性和连贯性得分。

5. 测试了三种提示级防御方法:困惑度、重标记和自我提醒。

实验结果

研究发现,大多数SLM对jailbreak攻击高度脆弱,平均ASR超过0.4,其中38.1%的SLM甚至无法抵抗直接有害查询。模型大小与脆弱性之间没有显著相关性,而训练数据集和训练技术对安全性有显著影响。此外,现有的防御方法在所有SLM和不同的攻击方法中都不能达到完美的性能。

未来工作

未来的工作可以包括:开发更有效的防御方法,研究特定领域SLM的安全问题,以及探索新的训练技术以提高SLM的安全性。