DIASAFETY

Name: DIASAFETY
Creator: 清华大学人工智能研究院
Published: 2022-04-04 14:17:40
License: 暂无描述

arXiv2022-04-04 更新2024-06-21 收录

下载链接：

https://github.com/thu-coai/DiaSafety

下载链接

链接失效反馈

官方服务：

资源简介：

DIASAFETY是一个专注于对话安全的数据集，由清华大学人工智能研究院开发。该数据集包含11000个标注的上下文-响应对，特别关注上下文敏感的不安全行为，这些行为在前期的研究中较少探索。数据集的创建旨在推动对话安全领域的研究，通过提供丰富的上下文敏感不安全示例，帮助训练对话安全分类器，为检测上下文敏感对话不安全提供强有力的基准。DIASAFETY的应用领域主要集中在评估和提升开放领域对话系统的安全性，特别是解决现有对话系统中存在的上下文敏感安全问题。

DIASAFETY is a dataset dedicated to dialogue safety, developed by the Institute of Artificial Intelligence at Tsinghua University. This dataset includes 11,000 annotated context-response pairs, with special attention paid to context-sensitive unsafe behaviors that have been rarely explored in previous studies. The dataset is constructed to promote research in the dialogue safety domain: by offering rich context-sensitive unsafe examples, it facilitates the training of dialogue safety classifiers and provides a robust benchmark for detecting context-sensitive unsafe dialogues. The primary application scenarios of DIASAFETY focus on evaluating and enhancing the safety of open-domain dialogue systems, particularly addressing the context-sensitive safety issues existing in current dialogue systems.

提供机构：

清华大学人工智能研究院

创建时间：

2021-10-16

搜集汇总

数据集介绍

构建方式

在对话安全研究领域，针对上下文敏感不安全行为的标注数据稀缺，DIASAFETY数据集的构建采用了多源融合与半自动标注策略。该数据集从Reddit真实对话、公开数据集以及机器生成数据三个来源采集原始语料，通过关键词查询与特定子版块筛选提升不安全样本的发现效率。构建过程采用模型在环的迭代标注框架，首先利用预训练分类器进行初步筛选，再通过亚马逊众包平台进行严格的人工标注，确保所有响应在语句层面安全但在上下文层面不安全。标注流程包含语句级与上下文级双重校验，并嵌入质量控制机制，最终形成包含五类上下文敏感不安全行为的11K高质量标注对。

特点

DIASAFETY的核心特征在于其专注于上下文敏感不安全行为，这类行为在孤立语句层面呈现安全状态，仅在特定对话上下文中才暴露风险。数据集涵盖五大类别：冒犯用户、风险忽视、未授权专业知识、毒性认同与偏见观点，每类均包含安全与不安全样本。其数据分布呈现高度语境依赖性，平均上下文长度达20.2词，响应长度15.3词，标注者间一致性系数κ为0.37。与现有数据集相比，DIASAFETY同时具备上下文感知性、上下文敏感性与对话系统导向性三重属性，且覆盖最广泛的安全研究范畴。数据集的挑战性体现在现有安全检测工具在其测试集上表现接近随机水平，凸显了上下文敏感安全检测的复杂性。

使用方法

该数据集主要服务于对话安全检测模型的训练与评估。研究者可采用五对一的多分类器架构，针对每类不安全行为训练独立的RoBERTa基分类器，输入格式为上下文与响应以分隔符拼接。评估时采用两阶段安全检测策略：先使用现有语句级检测器过滤显性不安全响应，再运用基于DIASAFETY训练的上下文敏感分类器进行细粒度检测。数据集支持对流行对话系统进行安全基准测试，通过设计特定类别对抗性上下文，统计模型生成响应中上下文敏感不安全与语句级不安全的比例。此外，数据集可作为增强对话生成模型安全性的训练资源，通过对抗训练或安全约束解码等技术提升系统在复杂语境下的安全响应能力。

背景与挑战

背景概述

随着基于Transformer的大规模预训练语言模型兴起，生成式开放域聊天机器人研究备受关注，但其实际部署因安全风险而受限。对话安全作为自然语言处理领域的关键议题，涉及对用户心理与生理健康的保护，以及避免不道德行为。DIASAFETY数据集由清华大学CoAI团队联合加州大学洛杉矶分校、腾讯微信AI团队于2022年提出，旨在构建一个专注于上下文敏感不安全行为的对话安全分类体系与基准数据。该数据集通过整合真实对话、公共数据集与机器生成样本，系统标注了五类上下文敏感不安全行为，为对话系统的安全评估与改进提供了重要资源。

当前挑战

DIASAFETY数据集致力于解决对话系统中上下文敏感不安全行为的检测难题，其核心挑战在于如何准确识别那些在孤立语句层面安全、但在对话上下文中隐含危害的回应。构建过程中的主要困难包括：上下文敏感不安全样本在自然语料中较为稀疏，需通过关键词查询与特定子论坛筛选以提高收集效率；人工标注需区分细微的语境依赖不安全模式，导致标注一致性控制复杂；现有安全检测工具如Perspective API在上下文敏感任务上表现显著不足，突显了该数据集的必要性与前沿性。

常用场景

经典使用场景

在对话安全研究领域，DIASAFETY数据集被广泛用于评估和提升神经对话模型在上下文敏感场景下的安全性。该数据集通过精心构建的上下文敏感不安全实例，为研究者提供了检验模型在复杂对话环境中是否会产生隐性有害回复的基准平台。其经典应用体现在训练和测试上下文感知的安全分类器，帮助模型识别那些在孤立语句层面看似无害、但在特定对话背景下却可能引发冒犯、风险忽视或偏见传播的回复。

衍生相关工作

围绕DIASAFETY数据集，衍生出了一系列聚焦于上下文敏感对话安全的经典研究工作。这些工作包括基于该数据集训练的强基线分类器，其性能显著超越了Perspective API等传统安全检测工具。此外，研究社区利用该数据集开展了对多种生成式对话模型的系统性安全评测，揭示了模型在上下文敏感场景下的共性缺陷。后续研究进一步探索了将上下文敏感安全检测集成到端到端对话生成中的方法，并尝试扩展数据集的分类体系以覆盖更广泛的安全考量维度。

数据集最近研究