JailbreakInputs

Name: JailbreakInputs
Creator: FAR AI
Published: 2025-03-01 07:37:00
License: 暂无描述

Hugging Face2025-03-01 更新2025-03-02 收录

下载链接：

https://huggingface.co/datasets/AlignmentResearch/JailbreakInputs

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个文本分类数据集，包含default、neg和pos三种配置。每种配置都有训练集和验证集，用于区分文本内容是否为良性或有害。数据集特征包括completion、instructions、answer_prompt、content、clf_label、proxy_clf_label、gen_target和proxy_gen_target。

提供机构：

FAR AI

创建时间：

2025-03-01

原始信息汇总

数据集概述

数据集名称

AlignmentResearch/JailbreakInputs

数据集配置

默认配置：default
其他配置：neg, pos

特征列表

completion：字符串类型
instructions：字符串类型
answer_prompt：字符串类型
content：字符串序列
clf_label：分类标签，包含 0 (Benign) 和 1 (Harmful)
proxy_clf_label：分类标签，包含 0 (Benign) 和 1 (Harmful)
gen_target：字符串类型
proxy_gen_target：字符串类型

数据集拆分

default配置

训练集：35491条示例，大小67607658字节
验证集：9772条示例，大小17641875字节

neg配置

训练集：17762条示例，大小33835260字节
验证集：4898条示例，大小8842602字节

pos配置

训练集：17729条示例，大小33772398字节
验证集：4874条示例，大小8799273字节

下载与数据大小

默认配置：下载大小48117379字节，数据集大小85249533字节
neg配置：下载大小21632141字节，数据集大小42677862字节
pos配置：下载大小25611920字节，数据集大小42571671字节

数据文件路径

default配置
- 训练集：data/train-*
- 验证集：data/validation-*
neg配置
- 训练集：neg/train-*
- 验证集：neg/validation-*
pos配置
- 训练集：pos/train-*
- 验证集：pos/validation-*

搜集汇总

数据集介绍

构建方式

JailbreakInputs数据集的构建涉及对输入内容、指示、答案提示以及生成目标等字符串信息的采集，并根据是否为良性或有害进行分类，形成了包含clf_label和proxy_clf_label两个标签的标注体系。数据集分为训练集和验证集，每个集合均按照特定的配置名称进行区分，如默认配置、负面配置和正面配置，各配置下数据集的字节大小和示例数量均有详细记录。

特点

该数据集的特点在于其细致的分类标签体系，能够有效标注输入内容的有害与否，同时提供了原始内容和生成目标，便于研究者对输入与输出之间的关联性进行深入研究。数据集的不同配置允许研究者根据具体需求选择合适的数据子集，以适应不同的研究目标和模型训练需求。

使用方法

使用JailbreakInputs数据集时，用户可根据自身需求下载相应的配置文件。数据集以train和validation两个split的形式提供，每个split包含多个数据文件，用户可以通过指定的路径访问这些文件。在模型训练或评估前，用户需根据数据集的特性和格式进行适当的预处理，以确保数据能够被模型有效利用。

背景与挑战

背景概述

JailbreakInputs数据集是在自然语言处理领域中，为了解决对话系统安全性和鲁棒性问题而构建的。该数据集由一系列研究人员共同开发，旨在为研究提供一种评估和改进对话系统对抗性输入处理能力的工具。自创建以来，JailbreakInputs数据集被广泛应用于对话系统的安全性评估，对提高对话系统防御恶意攻击的能力产生了重要影响。

当前挑战

该数据集面临的挑战主要体现在两个方面：一是领域问题上的挑战，即如何有效识别和处理对话系统中的有害输入，保证系统的安全稳定运行；二是构建过程中的挑战，包括如何确保数据集的多样性和代表性，以及如何准确标注数据，避免标注偏差。

常用场景

经典使用场景

JailbreakInputs数据集是自然语言处理领域中对生成模型进行安全性和鲁棒性测试的重要资源。该数据集主要用于评估模型在面对具有潜在危害性的输入指令时的表现，其经典使用场景包括对生成模型进行对抗性测试，以检验模型在处理恶意指令时的稳健性。

实际应用

在实际应用中，JailbreakInputs数据集可用于改进自然语言生成系统的安全防护机制，防止恶意用户通过操纵输入来达到不当目的。此外，该数据集还能助力开发更为安全的对话系统，增强其在实际部署环境中的稳定性和可靠性。

衍生相关工作

基于JailbreakInputs数据集，研究者们衍生出了一系列相关工作，包括但不限于对生成模型进行安全性增强的方法研究，以及构建更为复杂和隐蔽的对抗性样本以测试模型的鲁棒性。这些研究进一步推动了生成模型安全性评估技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集