in-the-wild-jailbreak-prompts

Hugging Face2024-10-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/TrustAIRLab/in-the-wild-jailbreak-prompts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了从2022年12月至2023年12月期间，来自Reddit、Discord、网站和开源数据集的15,140个提示，其中包含1,405个越狱提示。这些提示用于研究大型语言模型（LLMs）在自然环境中的越狱行为。数据集包括多个配置，每个配置都有不同的特征和数据文件路径。数据集的目的是评估越狱提示的有效性，并构建了一个包含390个问题的禁止场景问题集，用于评估模型在这些场景下的表现。

This dataset compiles 15,140 prompts collected between December 2022 and December 2023 from Reddit, Discord, public websites, and open-source datasets, among which 1,405 are jailbreak prompts. These prompts are employed to study the jailbreak behaviors of large language models (LLMs) in real-world naturalistic environments. The dataset features multiple configurations, each with unique characteristics and dedicated data file paths. The core purpose of this dataset is to evaluate the efficacy of jailbreak prompts, and it has constructed a forbidden scenario question set containing 390 questions to assess model performance across these scenarios.

创建时间：

2024-10-09

原始信息汇总

In-The-Wild Jailbreak Prompts on LLMs

数据集概述

该数据集包含从2022年12月至2023年12月收集的15,140个提示，其中1,405个为越狱提示。数据集涵盖四个平台（Reddit、Discord、网站和开源数据集），是目前最大的野外越狱提示集合。

数据集配置

数据集包含以下配置：

jailbreak_2023_05_07
- 特征：platform, source, prompt, jailbreak, created_at, date, community_id, community_name
- 分割：train（666个样本，1,391,612字节）
- 下载大小：656,975字节
- 数据集大小：1,391,612字节
jailbreak_2023_12_25
- 特征：platform, source, prompt, jailbreak, created_at, date, community, community_id, previous_community_id
- 分割：train（1,405个样本，3,799,875字节）
- 下载大小：1,871,641字节
- 数据集大小：3,799,875字节
regular_2023_05_07
- 特征：platform, source, prompt, jailbreak, created_at, date
- 分割：train（5,721个样本，6,534,994字节）
- 下载大小：3,264,474字节
- 数据集大小：6,534,994字节
regular_2023_12_25
- 特征：platform, source, prompt, jailbreak, created_at, date
- 分割：train（13,735个样本，24,345,310字节）
- 下载大小：12,560,543字节
- 数据集大小：24,345,310字节

数据来源统计

平台	来源	# 帖子	# 用户	# 对抗用户	# 提示	# 越狱提示	提示时间范围
Reddit	r/ChatGPT	163,549	147	147	176	176	2023.02-2023.11
Reddit	r/ChatGPTPromptGenius	3,536	305	21	654	24	2022.12-2023.11
Reddit	r/ChatGPTJailbreak	1,602	183	183	225	225	2023.02-2023.11
Discord	ChatGPT	609	259	106	544	214	2023.02-2023.12
Discord	ChatGPT Prompt Engineering	321	96	37	278	67	2022.12-2023.12
Discord	Spreadsheet Warriors	71	3	3	61	61	2022.12-2023.09
Discord	AI Prompt Sharing	25	19	13	24	17	2023.03-2023.04
Discord	LLM Promptwriting	184	64	41	167	78	2023.03-2023.12
Discord	BreakGPT	36	10	10	32	32	2023.04-2023.09
网站	AIPRM	-	2,777	23	3,930	25	2023.01-2023.06
网站	FlowGPT	-	3,505	254	8,754	405	2022.12-2023.12
网站	JailbreakChat	-	-	-	79	79	2023.02-2023.05
数据集	AwesomeChatGPTPrompts	-	-	-	166	2	-
数据集	OCR-Prompts	-	-	-	50	0	-
总计		169,933	7,308	803	15,140	1,405	2022.12-2023.12

数据加载

使用Hugging Face的Datasets库可以轻松加载所有收集的提示。

python from datasets import load_dataset

dataset = load_dataset(TrustAIRLab/in-the-wild-jailbreak-prompts, jailbreak_2023_05_07, split=train)

dataset = load_dataset(TrustAIRLab/in-the-wild-jailbreak-prompts, jailbreak_2023_12_25, split=train)

dataset = load_dataset(TrustAIRLab/in-the-wild-jailbreak-prompts, regular_2023_05_07, split=train)

dataset = load_dataset(TrustAIRLab/in-the-wild-jailbreak-prompts, regular_2023_12_25, split=train)

问题集

为了评估越狱提示的有效性，构建了一个包含390个问题的问答集，涵盖13个禁止场景（来自OpenAI使用政策）。

python from datasets import load_dataset

forbidden_question_set = load_dataset("TrustAIRLab/forbidden_question_set", split=train)

许可证

该数据集基于MIT许可证。

搜集汇总

数据集介绍

构建方式

该数据集通过JailbreakHub框架，从2022年12月至2023年12月期间，从Reddit、Discord、网站及开源数据集中收集了15,140条提示，其中包括1,405条越狱提示。数据来源涵盖了多个平台，确保了数据的多样性和广泛性。数据集的构建过程严格遵循了公开数据的收集标准，确保了数据的合法性和透明性。

特点

该数据集的特点在于其规模之大和来源之广，涵盖了从多个社交媒体平台和开源数据集中收集的提示，特别是包含了1,405条越狱提示，这是目前已知的最大规模的野外越狱提示集合。数据集中的每条提示都附带了详细的元数据，如来源平台、创建时间、社区信息等，为研究者提供了丰富的信息维度。

使用方法

该数据集可通过Hugging Face的Datasets库轻松加载，支持多种配置文件的加载，如jailbreak_2023_05_07、jailbreak_2023_12_25等。研究者可以通过简单的Python代码加载数据集，并进行进一步的分析和模型训练。此外，数据集还提供了原始CSV文件，便于用户进行自定义处理。在使用数据集进行模型训练时，建议对提示字段进行去重处理，以提高数据质量。

背景与挑战

背景概述

In-The-Wild Jailbreak Prompts数据集由Xinyue Shen、Zeyuan Chen、Michael Backes、Yun Shen和Yang Zhang等研究人员于2023年创建，旨在研究大型语言模型（LLMs）在真实场景中的越狱提示（jailbreak prompts）行为。该数据集通过JailbreakHub框架收集了2022年12月至2023年12月期间来自Reddit、Discord、网站和开源数据集的15,140条提示，其中包括1,405条越狱提示。该研究首次对真实环境中的越狱提示进行了系统性测量，揭示了LLMs在面对恶意提示时的脆弱性，为LLMs的安全性评估提供了重要数据支持。该数据集的研究成果已在ACM CCS 2024会议上发表，对LLMs的安全性和伦理研究具有深远影响。

当前挑战

In-The-Wild Jailbreak Prompts数据集的研究面临多重挑战。首先，越狱提示的多样性和复杂性使得识别和分类这些提示变得困难，尤其是在面对不断演变的对抗性策略时。其次，数据收集过程中需要处理大量公开数据，如何确保数据的代表性和完整性是一个关键问题。此外，由于数据集涉及有害语言和敏感内容，如何在研究中平衡伦理与科学需求，避免数据滥用，也是一个重要挑战。最后，构建有效的评估框架以量化越狱提示对LLMs的影响，需要克服模型响应多样性和评估标准不一致性等技术难题。

常用场景

经典使用场景

在大型语言模型（LLMs）的研究中，in-the-wild-jailbreak-prompts数据集被广泛用于分析和评估模型在面对恶意提示时的表现。该数据集包含了从多个平台收集的15,140个提示，其中包括1,405个越狱提示，这些提示被用于测试模型的安全性和鲁棒性。研究人员通过该数据集可以深入了解模型在应对恶意输入时的漏洞，并开发相应的防御机制。

实际应用

在实际应用中，in-the-wild-jailbreak-prompts数据集被用于评估和改进商业语言模型的安全性。通过使用该数据集，企业可以测试其模型在面对恶意输入时的表现，并据此优化模型的安全防护机制。此外，该数据集还被用于教育和培训，帮助开发人员更好地理解模型的安全漏洞及其应对策略。

衍生相关工作

该数据集衍生了一系列相关研究，主要集中在大型语言模型的安全性和鲁棒性方面。例如，基于该数据集的研究工作开发了新的评估框架和防御机制，以应对模型在面对恶意提示时的挑战。此外，该数据集还被用于开发新的越狱提示检测算法，进一步提升了模型的安全性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集