SorryBench

Name: SorryBench
Creator: FAR AI
Published: 2025-05-06 10:12:42
License: 暂无描述

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/AlignmentResearch/SorryBench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个文本分类数据集，用于区分文本内容是否为良性或有害。数据集分为三个配置：default、neg和pos。每个配置都包含clf_label（分类标签）、instructions（指示）、content（内容）、answer_prompt（回答提示）、proxy_clf_label（代理分类标签）、gen_target（生成目标）和proxy_gen_target（代理生成目标）等字段。clf_label字段包含两个类别：Benign（良性）和Harmful（有害）。训练集包含120个示例，但是neg和pos配置的验证集为空。数据集的总大小为27992字节，下载大小为16181字节。

This is a text classification dataset intended to differentiate whether text content is benign or harmful. The dataset comprises three configurations: default, neg, and pos. Each configuration includes fields such as clf_label (classification label), instructions, content, answer_prompt, proxy_clf_label (proxy classification label), gen_target (generation target), and proxy_gen_target (proxy generation target). The clf_label field contains two categories: Benign and Harmful. The training set consists of 120 examples, while the validation sets for the neg and pos configurations are empty. The total size of the dataset is 27992 bytes, and its download size is 16181 bytes.

提供机构：

FAR AI

创建时间：

2025-05-06

原始信息汇总

数据集概述

基本信息

数据集名称: SorryBench
发布者: AlignmentResearch
数据集地址: https://huggingface.co/datasets/AlignmentResearch/SorryBench

数据集配置

数据集包含以下三种配置：

1. default

特征:
- clf_label: 分类标签（Benign或Harmful）
- instructions: 字符串类型
- content: 字符串序列
- answer_prompt: 字符串类型
- proxy_clf_label: int64类型
- gen_target: 字符串类型
- proxy_gen_target: 字符串类型
数据分割:
- train: 120个样本，27,992字节
- validation: 无样本
下载大小: 16,181字节
数据集大小: 27,992字节

2. neg

特征:
- 同default配置
数据分割:
- train: 无样本
- validation: 无样本
下载大小: 4,268字节
数据集大小: 0字节

3. pos

特征:
- 同default配置
数据分割:
- train: 120个样本，27,992字节
- validation: 无样本
下载大小: 16,181字节
数据集大小: 27,992字节

数据文件路径

default:
- train: data/train-*
- validation: data/validation-*
neg:
- train: neg/train-*
- validation: neg/validation-*
pos:
- train: pos/train-*
- validation: pos/validation-*

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，SorryBench数据集通过精心设计的标注流程构建而成。该数据集采用双配置结构（pos/neg），包含120条训练样本，每条数据均包含指令文本、内容序列及应答提示等特征。数据标注采用二元分类体系，由专业团队对'良性'和'有害'内容进行人工标注，并同步生成代理分类标签以增强数据可靠性。原始文本经过标准化清洗后，通过多轮质量校验确保标注一致性。

特点

该数据集最显著的特征在于其多维度的安全评估框架。除基础分类标签外，创新性地包含代理分类标签和生成目标字段，支持对AI系统进行防御性测试。数据样本涵盖指令响应、内容生成等多种交互场景，其序列化内容存储方式保留了对话上下文信息。通过pos/neg双配置设计，研究者可针对性分析模型在不同风险等级内容上的表现差异。

使用方法

使用该数据集时，建议优先加载default配置获取完整数据视图。研究人员可通过clf_label字段进行基础安全分类训练，利用proxy_clf_label实现对抗性验证。gen_target字段适用于生成模型的安全性测试，配合answer_prompt可构建端到端评估流程。对于深入分析，可分别加载pos/neg配置进行对比实验，注意验证集需自行划分以满足特定研究需求。

背景与挑战

背景概述

SorryBench数据集作为自然语言处理领域的新型评估工具，专注于文本内容安全性的二元分类研究。该数据集由匿名研究团队构建，其核心设计理念在于通过指令-内容-应答的三元结构，系统性地评估模型对潜在有害内容的识别与生成能力。数据集采用精细标注体系，将文本划分为良性（Benign）和有害（Harmful）两类，为人工智能伦理安全研究提供了标准化评估框架。其创新性地整合了代理分类标签与生成目标，使得该数据集不仅能评估传统分类性能，还能检验生成式模型的安全合规性。

当前挑战

SorryBench面临的核心挑战体现在两个维度：在领域问题层面，如何准确定义文本有害性的边界成为关键难题，语言的多义性和文化差异性导致标注一致性难以保证；在构建技术层面，代理标签与真实标签的语义对齐需要复杂的验证机制，而生成目标的多样性要求则增加了数据采集的复杂度。数据规模限制也制约了模型的泛化能力评估，当前120条训练样本的体量难以覆盖现实场景中的语言变异。多模态特征整合中的序列文本处理，对模型的上下文理解能力提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，SorryBench数据集为研究指令遵循和内容生成模型的行为提供了重要资源。该数据集通过标注指令和内容的良性或有害性，成为评估模型在安全性和伦理性方面表现的基准工具。研究人员利用其丰富的指令-内容对，深入探究模型在复杂交互场景中的响应机制。

解决学术问题

该数据集有效解决了人工智能安全领域的关键问题，包括指令型语言模型的有害内容生成检测、代理分类标签的可靠性验证等。通过提供精确的二元分类标注和生成目标对比，为模型对齐研究和安全约束策略提供了量化评估框架，填补了交互式AI系统行为评估的数据空白。

衍生相关工作

基于SorryBench的经典研究包括指令遵循模型的对抗性测试框架构建、多模态安全评估基准扩展等。该数据集催生了系列关于模型安全边界的理论研究，并为后续的HarmBench、SafeBench等安全评估基准的建立提供了方法论参考和数据范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集