DoNotAnswer

Name: DoNotAnswer
Creator: FAR AI
Published: 2025-05-06 10:18:25
License: 暂无描述

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/AlignmentResearch/DoNotAnswer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文本内容以及对应的标签，用于区分内容是有益（Benign）还是有害（Harmful）。数据集分为三个配置：默认配置、neg配置和pos配置。每个配置都包括clf_label（分类标签）、instructions（指示说明）、content（文本内容）、answer_prompt（回答提示）、proxy_clf_label（代理分类标签）、gen_target（生成目标）和proxy_gen_target（代理生成目标）等字段。默认配置和pos配置的训练集包含132个示例，而neg配置的训练集为空。验证集在所有配置中都是空的。数据集可用于训练模型以进行文本分类任务。

提供机构：

FAR AI

创建时间：

2025-05-06

原始信息汇总

数据集概述

基本信息

数据集名称: DoNotAnswer
存储库地址: https://huggingface.co/datasets/AlignmentResearch/DoNotAnswer

数据集配置

数据集包含以下三种配置：

1. default配置

特征:
- clf_label: 分类标签（Benign或Harmful）
- instructions: 字符串类型
- content: 字符串序列
- answer_prompt: 字符串类型
- proxy_clf_label: int64类型
- gen_target: 字符串类型
- proxy_gen_target: 字符串类型
数据分割:
- train: 132个样本，20918字节
- validation: 0个样本，0字节
下载大小: 9692字节
数据集大小: 20918字节

2. neg配置

特征: 同default配置
数据分割:
- train: 0个样本，0字节
- validation: 0个样本，0字节
下载大小: 4268字节
数据集大小: 0字节

3. pos配置

特征: 同default配置
数据分割:
- train: 132个样本，20918字节
- validation: 0个样本，0字节
下载大小: 9692字节
数据集大小: 20918字节

数据文件路径

default配置:
- train: data/train-*
- validation: data/validation-*
neg配置:
- train: neg/train-*
- validation: neg/validation-*
pos配置:
- train: pos/train-*
- validation: pos/validation-*

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，DoNotAnswer数据集的构建采用了精细的标注策略，通过人工与自动化相结合的方式对问答数据进行分类。数据集包含132个训练样本，每个样本均标注了clf_label（良性或有害）和proxy_clf_label（代理分类标签），同时保留了原始指令、内容及生成目标等关键信息。数据以JSON格式存储，分为default、neg和pos三种配置，确保数据结构的灵活性和可扩展性。

特点

该数据集的核心特点在于其双重标注体系，既包含人工审核的clf_label，也提供proxy_clf_label作为辅助判断依据。特征字段涵盖instructions（指令）、content（内容序列）和answer_prompt（回答提示），支持对生成式AI安全性的多维度分析。neg和pos配置的独立设计，便于研究者针对不同风险等级的数据进行对比实验。

使用方法

研究者可通过HuggingFace平台直接加载数据集，默认配置包含完整的训练样本。使用load_dataset函数指定config_name参数（default/pos/neg）即可访问不同子集。数据字段如gen_target和proxy_gen_target可用于生成模型的安全性测试，而分类标签则适用于有害内容检测模型的训练与评估。验证集虽暂未包含样本，但保留了接口以供后续扩展。

背景与挑战

背景概述

DoNotAnswer数据集是近年来人工智能安全领域的重要资源，专注于识别和分类有害指令与良性指令。该数据集由专业研究团队构建，旨在解决大型语言模型在应对潜在有害查询时的安全挑战。通过标注指令的类别（良性或有害），该数据集为训练更安全的对话系统提供了关键支持。其构建反映了人工智能伦理研究的深化，特别是在内容过滤和风险控制方面具有显著影响力。

当前挑战

DoNotAnswer数据集面临的挑战主要包括两方面：在领域问题层面，如何精确区分有害与良性指令仍存在模糊边界，部分指令的标注可能受主观判断影响；在构建过程中，数据收集的多样性与代表性难以平衡，尤其是涵盖不同文化和语境下的有害内容。此外，确保数据标注的一致性和可靠性也是构建过程中的关键难题。

常用场景

经典使用场景

在人工智能安全与伦理研究领域，DoNotAnswer数据集被广泛用于训练和评估模型对有害指令的识别与拒绝能力。该数据集通过标注良性（Benign）与有害（Harmful）指令，为研究者提供了标准化的测试环境，帮助验证模型在面临潜在风险时的响应机制。

实际应用

在实际应用中，DoNotAnswer数据集被用于优化对话系统的安全性能。例如，在客服机器人或虚拟助手的开发中，利用该数据集可以训练模型识别并拒绝用户输入的有害指令，从而避免传播不当信息或执行危险操作。

衍生相关工作

基于DoNotAnswer数据集，研究者们开发了多种先进的分类与生成模型。例如，一些工作聚焦于改进模型的零样本学习能力，使其能够在未见过的新指令中准确识别有害内容。另一些研究则利用该数据集探索多模态条件下的安全响应策略。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集