Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation
作者: Wenhui Zhang, Huiyu Xu, Zhibo Wang, Zeqing He, Ziqi Zhu, Kui Ren
发布时间: 2025-03-11
来源: arxiv
研究方向: 小语言模型(SLM)的安全性和抗篡改能力
主要内容
本文研究了小语言模型(SLM)在面临篡改攻击时的脆弱性,特别是针对OWASP将“jailbreak攻击”列为大型语言模型(LLM)的主要威胁之一。通过对63个SLM进行大规模实证研究,评估了其对8种先进的jailbreak方法的敏感性,并分析了影响SLM脆弱性的关键因素。
主要贡献
1. 开发了一个用于评估SLM对jailbreak攻击脆弱性的通用框架。
2. 首次对SLM的jailbreak攻击脆弱性进行了大规模评估。
3. 分析了影响SLM脆弱性的关键因素,包括模型大小、模型架构、训练数据集和训练技术。
4. 评估了三种提示级防御方法的有效性,并指出了现有防御措施的局限性。
5. 强调了在SLM开发中采用安全设计方法的紧迫性,并为构建更可靠的SLM生态系统提供了有价值的见解。
研究方法
1. 选择15个主流SLM家族的63个模型,涵盖从100MB到7B的参数规模。
2. 使用8种主流jailbreak方法进行攻击,包括5种白盒方法和3种黑盒技术。
3. 采用70个jailbreak问题的分类平衡数据集,涵盖14个风险类别。
4. 评估指标包括攻击成功率(ASR)、重复率、词汇多样性、自我BLEU、困惑度、可读性和连贯性得分。
5. 测试了三种提示级防御方法:困惑度、重标记和自我提醒。
实验结果
研究发现,大多数SLM对jailbreak攻击高度脆弱,平均ASR超过0.4,其中38.1%的SLM甚至无法抵抗直接有害查询。模型大小与脆弱性之间没有显著相关性,而训练数据集和训练技术对安全性有显著影响。此外,现有的防御方法在所有SLM和不同的攻击方法中都不能达到完美的性能。
未来工作
未来的工作可以包括:开发更有效的防御方法,研究特定领域SLM的安全问题,以及探索新的训练技术以提高SLM的安全性。