five

DoNotAnswer

收藏
Hugging Face2025-05-06 更新2025-05-07 收录
下载链接:
https://huggingface.co/datasets/AlignmentResearch/DoNotAnswer
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含文本内容以及对应的标签,用于区分内容是有益(Benign)还是有害(Harmful)。数据集分为三个配置:默认配置、neg配置和pos配置。每个配置都包括clf_label(分类标签)、instructions(指示说明)、content(文本内容)、answer_prompt(回答提示)、proxy_clf_label(代理分类标签)、gen_target(生成目标)和proxy_gen_target(代理生成目标)等字段。默认配置和pos配置的训练集包含132个示例,而neg配置的训练集为空。验证集在所有配置中都是空的。数据集可用于训练模型以进行文本分类任务。
提供机构:
FAR AI
创建时间:
2025-05-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称: DoNotAnswer
  • 存储库地址: https://huggingface.co/datasets/AlignmentResearch/DoNotAnswer

数据集配置

数据集包含以下三种配置:

1. default配置

  • 特征:
    • clf_label: 分类标签(BenignHarmful
    • instructions: 字符串类型
    • content: 字符串序列
    • answer_prompt: 字符串类型
    • proxy_clf_label: int64类型
    • gen_target: 字符串类型
    • proxy_gen_target: 字符串类型
  • 数据分割:
    • train: 132个样本,20918字节
    • validation: 0个样本,0字节
  • 下载大小: 9692字节
  • 数据集大小: 20918字节

2. neg配置

  • 特征: 同default配置
  • 数据分割:
    • train: 0个样本,0字节
    • validation: 0个样本,0字节
  • 下载大小: 4268字节
  • 数据集大小: 0字节

3. pos配置

  • 特征: 同default配置
  • 数据分割:
    • train: 132个样本,20918字节
    • validation: 0个样本,0字节
  • 下载大小: 9692字节
  • 数据集大小: 20918字节

数据文件路径

  • default配置:
    • train: data/train-*
    • validation: data/validation-*
  • neg配置:
    • train: neg/train-*
    • validation: neg/validation-*
  • pos配置:
    • train: pos/train-*
    • validation: pos/validation-*
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全领域,DoNotAnswer数据集的构建采用了精细的标注策略,通过人工与自动化相结合的方式对问答数据进行分类。数据集包含132个训练样本,每个样本均标注了clf_label(良性或有害)和proxy_clf_label(代理分类标签),同时保留了原始指令、内容及生成目标等关键信息。数据以JSON格式存储,分为default、neg和pos三种配置,确保数据结构的灵活性和可扩展性。
特点
该数据集的核心特点在于其双重标注体系,既包含人工审核的clf_label,也提供proxy_clf_label作为辅助判断依据。特征字段涵盖instructions(指令)、content(内容序列)和answer_prompt(回答提示),支持对生成式AI安全性的多维度分析。neg和pos配置的独立设计,便于研究者针对不同风险等级的数据进行对比实验。
使用方法
研究者可通过HuggingFace平台直接加载数据集,默认配置包含完整的训练样本。使用load_dataset函数指定config_name参数(default/pos/neg)即可访问不同子集。数据字段如gen_target和proxy_gen_target可用于生成模型的安全性测试,而分类标签则适用于有害内容检测模型的训练与评估。验证集虽暂未包含样本,但保留了接口以供后续扩展。
背景与挑战
背景概述
DoNotAnswer数据集是近年来人工智能安全领域的重要资源,专注于识别和分类有害指令与良性指令。该数据集由专业研究团队构建,旨在解决大型语言模型在应对潜在有害查询时的安全挑战。通过标注指令的类别(良性或有害),该数据集为训练更安全的对话系统提供了关键支持。其构建反映了人工智能伦理研究的深化,特别是在内容过滤和风险控制方面具有显著影响力。
当前挑战
DoNotAnswer数据集面临的挑战主要包括两方面:在领域问题层面,如何精确区分有害与良性指令仍存在模糊边界,部分指令的标注可能受主观判断影响;在构建过程中,数据收集的多样性与代表性难以平衡,尤其是涵盖不同文化和语境下的有害内容。此外,确保数据标注的一致性和可靠性也是构建过程中的关键难题。
常用场景
经典使用场景
在人工智能安全与伦理研究领域,DoNotAnswer数据集被广泛用于训练和评估模型对有害指令的识别与拒绝能力。该数据集通过标注良性(Benign)与有害(Harmful)指令,为研究者提供了标准化的测试环境,帮助验证模型在面临潜在风险时的响应机制。
实际应用
在实际应用中,DoNotAnswer数据集被用于优化对话系统的安全性能。例如,在客服机器人或虚拟助手的开发中,利用该数据集可以训练模型识别并拒绝用户输入的有害指令,从而避免传播不当信息或执行危险操作。
衍生相关工作
基于DoNotAnswer数据集,研究者们开发了多种先进的分类与生成模型。例如,一些工作聚焦于改进模型的零样本学习能力,使其能够在未见过的新指令中准确识别有害内容。另一些研究则利用该数据集探索多模态条件下的安全响应策略。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作