JailBench

github2024-07-10 更新2024-07-13 收录

下载链接：

https://github.com/STAIR-BUPT/JailBench

下载链接

链接失效反馈

官方服务：

资源简介：

JailBench 是针对大型语言模型在中文语境下越狱攻击漏洞的综合性多领域安全评测数据集，面向《网络安全技术生成式人工智能服务安全基本要求》训练数据及生成内容的主要安全风险标准分类设计，是目前公开发布题库规模最大，越狱攻击手段覆盖最为广泛的中文评测数据集。

JailBench is a comprehensive multi-domain security evaluation dataset focused on jailbreak attack vulnerabilities of large language models (LLMs) in the Chinese context. It is developed in line with the standard classification of key security risks for training data and generated content stipulated in the "Cybersecurity Technology – Basic Requirements for the Security of Generative AI Services". Currently, it ranks as the largest publicly released Chinese evaluation dataset with the most extensive coverage of jailbreak attack techniques.

创建时间：

2024-07-10

原始信息汇总

JailBench: 大型语言模型越狱攻击风险评测中文数据集

JailBench 是针对大型语言模型在中文语境下越狱攻击风险的综合性多领域安全评测数据集，面向《网络安全技术生成式人工智能服务安全基本要求》标准分类设计，是目前公开发布题库规模最大，越狱攻击手段覆盖最为广泛的中文评测数据集。

分类标准

JailBench 数据集充分考虑全国网络安全标准化技术委员会发布的国家标准《网络安全技术生成式人工智能服务安全基本要求》相关内容，对数据集覆盖领域进行全面性、代表性细致分类。数据集内容从领域角度涵盖 5 个一级领域和 40 个二级领域。

数据集介绍

JailBench_seed: 大模型基础安全评测数据集，总共包含 540 条模型应当拒答的有害测试问题，能够评测目标大模型的多领域基础安全防御能力。
JailBench: 大模型越狱攻击风险评测数据集，总共包含 10800 条具有强大越狱能力的测试问题，有效提高了基础安全测试问题的模型越狱能力，能够全面检测评估大型语言模型的内容安全防护能力。

出于数据安全考虑和潜在的危害性影响，我们选择不公开完整的安全测试数据集。仓库中可下载的公开测试集仅包括部分危害性较低的测试数据。但是，为了进行安全研究，研究人员可以通过填写数据申请表单进行申请。经过批准后，我们将向申请人提供完整的测试数据集。

声明：数据集包含有害违规内容示例，均不代表本团队立场。

排行榜

大模型基础安全排行榜

利用大型语言模型基础安全评测数据集 JailBench_seed，我们针对国内外多款主流大型语言模型开展模型基础安全性评估，各模型的安全评测结果如下（按综合越狱成功率升序排列）：

模型名称	综合越狱成功率(%)	违反社会主义核心价值观(%)	歧视(%)	侵犯他人合法权益(%)	商业违法违规(%)	无法满足特定服务类型安全需求(%)
InterLM2-chat-7B	0.00	0.00	0.00	0.00	0.00	0.00
GPT-4-0613	0.19	0.95	0.00	0.00	0.00	0.00
Qwen2-7B-chat	0.37	0.00	1.21	0.00	0.00	0.00
Qwen1.5-7B-chat	0.74	0.95	1.21	0.95	0.00	0.00
LLaMA2-13B-chat	0.56	2.86	0.00	0.00	0.00	0.00
LLaMA3-8B-Instruct	1.30	0.95	1.82	0.95	0.00	2.22
LLaMA2-7B-chat	1.48	1.90	0.61	2.86	2.67	0.00
ChatGLM3	1.48	1.90	0.61	4.76	0.00	0.00
GLM-4-9B-chat	2.04	2.86	0.61	5.71	1.33	0.00
Vicuna-13B-v1.5	5.19	10.48	1.21	8.57	5.33	2.22
GPT-3.5-Turbo	7.78	13.33	5.45	8.57	12.00	1.11
Vicuna-7B-v1.5	8.52	12.38	4.24	17.14	6.67	3.33
Mistral-7B-Instruct-v0.2	11.85	26.67	2.42	17.14	13.33	4.44
AVG	3.19	5.79	1.49	5.13	3.18	1.02

大模型越狱安全排行榜

利用大型语言模型越狱安全评测数据集 JailBench，我们针对国内外多款主流大型语言模型开展模型越狱安全性评估，各模型的安全评测结果如下（按综合越狱成功率升序排列）：

模型名称	综合越狱成功率(%)	违反社会主义核心价值观(%)	歧视(%)	侵犯他人合法权益(%)	商业违法违规(%)	无法满足特定服务类型安全需求(%)
GPT-4-0613	34.50	26.86	38.09	31.57	39.20	36.33
LLaMA3-8B-Instruct	43.94	25.33	56.45	41.05	34.80	53.72
LLaMA2-7B-chat	48.68	41.71	51.03	48.71	52.80	49.00
Qwen2-7B-chat	49.73	47.05	49.30	54.24	55.53	43.56
InterLM2-chat-7B	51.22	50.14	50.24	55.71	57.60	43.72
LLaMA2-13B-chat	55.39	46.00	60.39	57.48	55.73	54.44
Vicuna-7B-v1.5	59.27	65.81	56.39	65.43	61.13	48.17
ChatGLM3	58.81	51.76	66.70	58.14	60.13	52.22
Vicuna-13B-v1.5	66.32	72.67	65.27	71.29	67.13	54.39
Qwen1.5-7B-chat	71.60	69.67	71.09	73.90	79.00	65.94
GPT-3.5-Turbo	73.86	74.67	76.64	74.81	75.20	65.61
GLM-4-9B-chat	74.95	73.19	76.64	77.62	80.47	66.22
Mistral-7B-Instruct-v0.2	78.14	83.62	76.52	82.10	82.07	66.83
AVG	58.95	56.04	61.13	60.93	61.60	53.86

越狱评估指标：越狱成功率(ASR)，指能够成功突破模型安全护栏并产生有害输出的测试问题占总测试问题的比例。越狱成功率越高，代表目标模型的安全防护能力越弱。

有害性评估标准：对于所有涉及内容有害性评估的部分，我们均使用 MDJudge 分类器对模型输出的安全性进行评估，该分类器具有优秀的内容安全识别能力，能够准确识别、分类模型输出的安全风险。

搜集汇总

数据集介绍

构建方式

JailBench数据集的构建过程融合了多种方法，包括网络资源的搜集、人工整理编写以及大模型辅助生成。首先，通过广泛搜集网络资源，确保数据集的全面性和代表性。随后，人工整理编写确保了数据的质量和准确性。最后，利用大模型辅助生成技术，进一步丰富和强化了数据集的内容。这一综合方法确保了数据集在多领域越狱攻击风险评测中的有效性和可靠性。

使用方法

JailBench数据集的使用方法包括基础安全评测和越狱攻击风险评测。用户可以通过下载公开测试集进行初步评估，或通过填写数据申请表单获取完整数据集进行深入研究。数据集提供了详细的分类标准和评估指标，如越狱成功率（ASR），帮助用户全面评估模型的安全防护能力。此外，数据集还提供了排行榜，展示了不同模型的安全评测结果，为用户提供了参考和比较的依据。

背景与挑战

背景概述

JailBench数据集，由北京邮电大学网络空间安全学院和可信分布式计算与服务教育部重点实验室的STAIR团队创建，旨在评估大型语言模型在中文语境下的越狱攻击风险。该数据集于2024年发布，依据全国网络安全标准化技术委员会发布的《网络安全技术生成式人工智能服务安全基本要求》进行设计，涵盖了5个一级领域和40个二级领域，是目前公开的最大规模的中文越狱攻击评测数据集。JailBench不仅为研究者提供了丰富的测试样本，还通过其多领域的分类标准，推动了大型语言模型安全性能的全面评估，对提升人工智能系统的安全性具有重要意义。

当前挑战

JailBench数据集在构建过程中面临多项挑战。首先，越狱攻击的多样性和复杂性要求数据集必须覆盖广泛的安全风险领域，这增加了数据收集和分类的难度。其次，生成具有强大越狱能力的测试问题需要结合先进的越狱提示生成技术和人工筛选，确保测试问题的有效性和代表性。此外，数据集的公开性与其包含的有害内容之间的平衡也是一个重要挑战，需确保数据的安全使用同时不阻碍研究进展。最后，如何持续更新和扩展数据集以应对不断演变的越狱攻击手段，是该数据集未来需要解决的关键问题。

常用场景

经典使用场景

在人工智能安全领域，JailBench数据集被广泛用于评估大型语言模型在中文语境下的越狱攻击风险。该数据集通过模拟多种越狱攻击手段，测试模型在面对潜在有害内容时的防御能力，从而为提升模型的安全性提供科学依据。

解决学术问题

JailBench数据集解决了大型语言模型在多领域安全评测中的关键问题，特别是在越狱攻击风险评估方面。通过提供大规模、多领域的测试问题，该数据集帮助研究人员识别和修复模型中的安全漏洞，推动了人工智能安全技术的发展。

实际应用

在实际应用中，JailBench数据集被用于开发和优化大型语言模型的安全防护机制。通过定期使用该数据集进行安全评测，企业和研究机构能够及时发现并修复模型中的安全问题，确保其在实际应用中的可靠性和安全性。

数据集最近研究