Do-Not-Answer

arXiv2025-09-30 收录

AI安全

有毒内容检测

数据链接：

https://github.com/libr-ai/do-not-answer 数据链接链接失效反馈

官方服务：

资源简介：

该数据集包含了为评估目的而抽取的有害问题样本。此外，该数据集中有100个有害问题被随机抽取出来，用于对模型响应有害查询的评价任务。

This dataset comprises harmful question samples extracted for evaluation purposes. Additionally, 100 harmful questions are randomly sampled from this dataset for the task of evaluating model responses to harmful queries.

搜集汇总

数据集介绍

构建方式

随着大语言模型能力的飞速演进，其潜在的有害能力日益复杂且难以预测。为应对这一挑战，Do-Not-Answer数据集应运而生，旨在为评估LLM的安全防护机制提供首个开源资源。该数据集的构建基于一个涵盖五大风险领域、十二种伤害类型及六十种细粒度风险的三级分层风险分类体系。研究团队利用GPT-4通过模拟三回合对话历史这一创新策略，引导模型生成各风险类别下的示例问题，随后对生成的模板进行填充与人工筛选，剔除边界模糊或可直接回答的指令，最终汇集了939条负责任的语言模型不应遵循的提示指令。

特点

该数据集的核心特征在于其专注性与系统性：所有指令均被设计为应被拒绝回答的“禁区”，从而为评估模型的安全拒绝能力提供了清晰的标尺。数据集覆盖了从信息泄露、恶意利用、歧视与毒性、虚假信息到人机交互风险的广泛危害谱系，尤其侧重恶意使用与信息危害等紧迫议题。基于此，研究团队对六款主流LLM（包括GPT-4、ChatGPT、Claude等商业模型及LLaMA-2、Vicuna等开源模型）的5634条回复进行了人工标注，依据回复是否拒绝、驳斥或谨慎回答，划分出六种精细化的行为类别，揭示了不同模型在不同风险类型上的差异化响应模式。

使用方法

该数据集为LLM安全评估提供了灵活且低成本的解决方案。研究者可直接使用其人工标注的939条指令-回复对，作为评估模型安全性的黄金标准基准。此外，数据集支持两种自动化评估范式：一是利用GPT-4作为评估器，通过上下文学习对模型回复进行精细分类；二是基于人工标注数据微调轻量级BERT类分类器（如Longformer），实现本地化、高效的安全检测。实验表明，参数量不足6亿的微调小模型在有害回复检测与行为分类任务上，能够取得与GPT-4相媲美的综合性能，尤其适用于对数据隐私有严格要求的场景。

背景与挑战

背景概述

随着大型语言模型（LLM）的迅猛发展，其涌现出的难以预判的有害能力对负责任的人工智能部署构成了严峻挑战。现有安全评估工作多聚焦于性别偏见、毒性语言等特定风险领域，缺乏对更严重风险（如非法协助、心理操纵及极端危害）的系统性考量。为此，来自LibrAI、穆罕默德·本·扎耶德人工智能大学（MBZUAI）及墨尔本大学的研究团队于2023年构建了首个开源安全评估数据集Do-Not-Answer。该数据集基于三层风险分类体系（涵盖信息危害、恶意利用、歧视排斥、虚假信息及人机交互五大领域），精心筛选了939条语言模型本应拒绝回答的指令，并标注了六种主流LLM（包括GPT-4、ChatGPT、Claude及LLaMA-2等）的响应，为社区提供了低成本、细粒度的安全机制评测基准，推动了LLM安全对齐研究的可复现性与透明度。

当前挑战

Do-Not-Answer数据集所解决的领域问题是LLM安全防护机制的评估与风险识别，其核心挑战包括：第一，现有安全数据集多聚焦于单一风险类型（如毒性或偏见），缺乏覆盖极端危害（如恐怖主义指导、心理操控）的全面分类体系，导致模型对隐蔽性恶意输入的防御能力难以度量；第二，数据构建过程中面临生成危险指令的伦理困境——直接请求GPT-4生成有害内容常遭拒绝，团队创新性地采用模拟对话历史的三轮交互策略，通过角色扮演诱导模型输出模板化危害示例，再填充受保护属性（如种族、宗教）以规避伦理审查，但此方法仍可能遗漏边界案例（如看似无害但实具风险的指令）；第三，人工标注面临响应模式的多义性难题（如LLaMA-2的拒绝回答与反驳式回应常被混淆），需设计细粒度六类动作标签以区分安全与有害行为，而标注者间的主观差异进一步增加了标准化评估的难度。

常用场景

经典使用场景

在大型语言模型（LLM）安全评估领域，Do-Not-Answer数据集被广泛用于衡量模型对高风险指令的拒答能力。该数据集精心构建了939个不应被遵循的提示，覆盖信息泄露、恶意利用、歧视性言论、虚假信息传播及人机交互风险等五大类危害。研究者通过评估模型是否拒绝、驳斥或谨慎回应这些指令，来量化其安全机制的鲁棒性。这一场景为对比不同LLM（如GPT-4、LLaMA-2、ChatGLM2）的安全表现提供了标准化基准，尤其揭示了开源模型在安全对齐上的薄弱环节。

解决学术问题

该数据集解决了LLM安全评估中缺乏公开、全面风险覆盖基准的学术难题。此前研究多聚焦于偏见或毒性等单一风险，而Do-Not-Answer首次提出包含60种细粒度风险类型的三级分层分类体系，填补了极端危害（如心理操纵、恐怖主义指导）评估的空白。通过人工标注与自动化分类器结合，它揭示了模型响应中的风险特异性模式（如商业模型对非法活动倾向于直接拒绝），为安全对齐理论提供了实证基础，并推动了低成本、可复现的安全评估方法论发展。

衍生相关工作

该数据集催生了多项衍生工作，包括基于其风险分类体系扩展的更大规模安全数据集（如BeaverTails），以及针对多轮对话安全评估的改进框架。研究者还借鉴其三级分层思想，开发了跨语言安全对齐评估方法。在方法论上，Do-Not-Answer推动了“小型分类器媲美GPT-4”的发现，促使后续工作探索参数高效微调（如LoRA）在安全评估中的应用。此外，其提出的“响应动作分类”（如拒绝、驳斥、提供免责声明）已成为分析模型安全行为的标准化工具。

以上内容由遇见数据集搜集并总结生成

Do-Not-Answer

资源简介：

相关数据集