jackhhao/jailbreak-classification

Name: jackhhao/jailbreak-classification
Creator: jackhhao
Published: 2023-09-30 01:55:08
License: 暂无描述

Hugging Face2023-09-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jackhhao/jailbreak-classification

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text-classification language: - en tags: - jailbreak - security - moderation pretty_name: Jailbreak Classification size_categories: - 10K<n<100K configs: - config_name: default data_files: - split: train path: "balanced/jailbreak_dataset_train_balanced.csv" - split: test path: "balanced/jailbreak_dataset_test_balanced.csv" --- # Jailbreak Classification ### Dataset Summary Dataset used to classify prompts as jailbreak vs. benign. ## Dataset Structure ### Data Fields - `prompt`: an LLM prompt - `type`: classification label, either `jailbreak` or `benign` ## Dataset Creation ### Curation Rationale Created to help detect & prevent harmful jailbreak prompts when users interact with LLMs. ### Source Data Jailbreak prompts sourced from: <https://github.com/verazuo/jailbreak_llms> Benign prompts sourced from: - [OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) - <https://github.com/teknium1/GPTeacher>

license: Apache-2.0 task_categories: - 文本分类 language: - 英语 tags: - 越狱（jailbreak） - 安全 - 审核 pretty_name: 越狱提示分类（Jailbreak Classification） size_categories: - 10K < 样本量 < 100K configs: - config_name: 默认（default） data_files: - split: 训练集（train） path: "balanced/jailbreak_dataset_train_balanced.csv" - split: 测试集（test） path: "balanced/jailbreak_dataset_test_balanced.csv" # 越狱提示分类（Jailbreak Classification） ## 数据集概览本数据集用于将大语言模型（LLM）提示词划分为越狱（jailbreak）与良性（benign）两类。 ## 数据集结构 ### 数据字段 - `prompt`: 大语言模型（LLM）提示词 - `type`: 分类标签，可选值为`jailbreak`（越狱）或`benign`（良性） ## 数据集构建 ### 构建依据本数据集旨在帮助检测并防范用户与大语言模型（LLM）交互时出现的恶意越狱提示词。 ### 源数据来源越狱提示词源自：<https://github.com/verazuo/jailbreak_llms> 良性提示词源自： - [OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) - <https://github.com/teknium1/GPTeacher>

提供机构：

jackhhao

原始信息汇总

Jailbreak Classification 数据集概述

数据集摘要

用于将提示分类为越狱（jailbreak）或良性（benign）。

数据集结构

数据字段

prompt: 大型语言模型（LLM）的提示
type: 分类标签，可以是 jailbreak 或 benign

数据集创建

创建理由

旨在帮助检测和预防用户与大型语言模型交互时的有害越狱提示。

源数据

越狱提示来源：https://github.com/verazuo/jailbreak_llms
良性提示来源：
- OpenOrca
- https://github.com/teknium1/GPTeacher

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，构建高质量的数据集对于识别和防范恶意攻击至关重要。该数据集的构建过程体现了严谨的学术态度，其核心在于对两类提示词的精心收集与平衡处理。恶意提示词主要源自公开的学术研究仓库，确保了样本的真实性与前沿性；良性提示词则选自两个广泛认可的高质量开源数据集，保证了对照样本的多样性与规范性。最终，通过科学的划分方法，形成了训练集与测试集，为模型训练与评估奠定了可靠的数据基础。

特点

本数据集的核心特征在于其明确的二元分类目标与精炼的数据结构。每条数据仅包含‘提示词’和‘类型’两个字段，结构清晰，极大降低了数据处理的复杂度。‘类型’标签直接区分为‘越狱’与‘良性’，这种简洁的标注体系便于模型快速学习关键判别特征。数据规模控制在万至十万条之间，既保证了足够的训练样本，又避免了数据冗余，在效率与效果之间取得了良好平衡，特别适用于快速构建和迭代分类模型。

使用方法

该数据集主要用于训练和评估针对大型语言模型的提示词安全分类器。研究人员或开发者可直接加载其提供的训练集与测试集文件，投入文本分类模型的开发流程。典型的应用场景包括：作为监督学习的训练数据，以构建能够自动识别潜在越狱攻击的守护模型；或作为基准测试集，用于横向比较不同分类算法的性能与鲁棒性。在使用时，需注意遵循其数据划分，以确保评估结果的公正性与可比性。

背景与挑战

背景概述

随着大型语言模型（LLM）在自然语言处理领域的广泛应用，其安全性问题日益凸显，尤其是用户可能通过精心设计的提示词绕过模型的安全防护机制，即所谓的“越狱”攻击。为应对这一挑战，研究人员于近期构建了Jailbreak Classification数据集，由jackhhao团队主导开发，旨在通过文本分类技术精准识别恶意越狱提示与良性提示。该数据集聚焦于提升LLM交互过程中的安全防护能力，通过整合开源社区中的越狱攻击样本与常规对话数据，为模型安全评估与防御策略的优化提供了关键资源，对促进人工智能安全领域的实证研究具有重要推动作用。

当前挑战

该数据集致力于解决LLM安全防护中的越狱攻击检测问题，其核心挑战在于越狱提示往往具有高度的隐蔽性与语义多样性，攻击者可能利用隐喻、编码或上下文误导等复杂策略，使得传统基于规则或简单特征的方法难以有效区分恶意与良性输入。在构建过程中，数据收集面临样本不平衡与质量控制的难题：越狱攻击数据相对稀缺且来源分散，需从开源社区如GitHub仓库中筛选整合；而良性提示虽来源广泛，如OpenOrca与GPTeacher数据集，但需确保其代表性与无偏性，避免引入噪声或偏见，从而影响分类模型的泛化性能与鲁棒性。

常用场景

经典使用场景

在大型语言模型安全研究领域，该数据集为文本分类任务提供了关键资源。其经典使用场景集中于训练和评估模型对用户输入的判别能力，旨在区分正常提示与恶意越狱提示。通过构建平衡的标注数据，研究者能够系统性地开发分类算法，以识别那些试图绕过模型安全限制的隐蔽性攻击，从而为模型防护机制的优化奠定实证基础。

实际应用

在实际应用层面，该数据集可直接集成至大型语言模型的部署管道中，作为实时内容过滤与安全审核模块的训练基础。例如，在线聊天机器人、内容生成平台或智能助理服务可利用基于此数据集训练的模型，自动筛查用户输入，预先拦截潜在的越狱尝试，从而在交互源头遏制有害内容的产生与传播，保障服务符合伦理与安全规范。

衍生相关工作

围绕该数据集，已衍生出一系列专注于越狱检测与防御的经典研究工作。这些工作不仅包括基于传统机器学习与深度学习的分类模型探索，还延伸至对抗性样本生成、提示鲁棒性分析以及多模态安全评估等交叉方向。相关成果常发表于人工智能安全顶级会议，逐步形成了从数据构建到算法创新，再到系统部署的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集