JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models
作者: Shuyi Liu, Simiao Cui, Haoran Bu, Yuming Shang, Xi Zhang
发布时间: 2025-02-27
来源: arxiv
研究方向: 大型语言模型(LLMs)的安全评估与基准
主要内容
本文提出了一种名为JailBench的综合中文安全评估基准,用于评估LLMs的深层安全漏洞。JailBench通过引入精细化的安全分类和自动数据扩展技术,以及结合jailbreak攻击和LLMs的自动提示生成框架,提高了评估的全面性和效率。
主要贡献
1. 引入了JailBench,这是第一个用于评估LLMs深层安全漏洞的综合中文基准。
2. 开发了一种新的两级分层安全分类标准,与中文语言和文化背景相符,包含5个不同的领域和40个风险类型。
3. 提出了自动越狱提示工程师(AJPE)框架,用于自动生成大量有害提示,从而显著提高了LLM漏洞检测的全面性和效率。
4. 在13个主流LLMs上进行了广泛的评估,证明了JailBench在识别LLMs漏洞和突出安全强化关键领域方面的有效性。
研究方法
1. 安全分类和层次化标准
2. 数据收集和增强
3. 自动提示生成和jailbreak攻击技术
4. 实验评估和性能分析
实验结果
JailBench在13个主流LLMs上进行了评估,与现有的中文基准相比,在ChatGPT上实现了最高的攻击成功率。实验结果表明,JailBench能够有效地识别LLMs的潜在安全漏洞,并突出了LLMs安全性和可信度方面的改进空间。
未来工作
未来的工作可以集中在进一步改进JailBench的性能,包括扩展其安全分类和风险类型,以及开发更有效的自动提示生成和jailbreak攻击技术。此外,还可以研究如何将JailBench应用于其他语言和领域,以及如何将JailBench与其他安全评估方法相结合。