Safety_Reasoning_Multi_Turn_Dialogue

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/DukeCEICenter/Safety_Reasoning_Multi_Turn_Dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

安全推理多轮对话数据集，包含编号、全局ID、类别、目标、对话轮次、对话内容、cot、输出、问题标签、问题严重性和响应标签等字段，用于多轮对话中的安全推理和问题响应分析。

创建时间：

2025-05-31

原始信息汇总

数据集概述

基本信息

数据集名称: Safety_Reasoning_Multi_Turn_Dialogue
存储位置: https://huggingface.co/datasets/DukeCEICenter/Safety_Reasoning_Multi_Turn_Dialogue
下载大小: 13720952 bytes
数据集大小: 44679740 bytes
训练集样本数: 6460

数据集特征

特征列:
- Unnamed: 0: int64
- global_id: int64
- category: string
- goal: string
- turn: int64
- conversation: string
- cot: string
- output: string
- question_label: string
- question_severity: string
- response_label: string
- response_severity: string

数据集配置

默认配置:
- 数据文件路径: data/train-*
- 拆分: train

相关论文

标题: SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues
作者: Kuo, Martin 等
期刊: arXiv preprint arXiv:2506.00668
年份: 2025
引用: bibtex @article{kuo2025safety, title={SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues}, author={Kuo, Martin and Zhang, Jianyi and Ding, Aolin and DiValentin, Louis and Hass, Amin and Morris, Benjamin F and Jacobson, Isaac and Linderman, Randolph and Kiessling, James and Ramos, Nicolas and others}, journal={arXiv preprint arXiv:2506.00668}, year={2025} }

搜集汇总

数据集介绍

构建方式

Safety_Reasoning_Multi_Turn_Dialogue数据集通过精心设计的多轮对话场景构建而成，涵盖了多样化的安全相关话题。研究团队采用系统化的数据采集流程，结合人工标注与自动化验证，确保对话内容的丰富性和准确性。每个对话实例均包含全局标识符、类别标签、对话目标及多轮交互文本，并辅以详尽的思维链解释和安全评估标签。数据集的构建过程严格遵循学术伦理规范，力求真实反映复杂对话场景中的安全推理需求。

特点

该数据集最显著的特点在于其多维度的安全标注体系，不仅包含对话内容和推理过程，还提供了问题与回应的安全标签及严重程度评级。丰富的元数据如对话轮次、目标描述和分类信息，为深入研究对话系统的安全性能提供了坚实基础。数据集规模适中但质量精良，6460个训练实例均经过严格校验，确保在安全推理研究领域具有高度代表性和实用性。思维链标注的引入尤为突出，为理解对话系统的决策过程提供了独特视角。

使用方法

研究人员可通过HuggingFace平台便捷获取该数据集，其标准化的数据结构便于直接加载至主流机器学习框架。典型应用场景包括但不限于安全敏感的对话系统训练、多轮推理能力评估以及安全风险检测模型开发。使用时应充分关注数据拆分策略，建议结合交叉验证方法确保模型评估的可靠性。数据集中提供的丰富标注信息支持端到端训练和细粒度分析，为不同研究目标提供灵活的应用可能。

背景与挑战

背景概述

Safety_Reasoning_Multi_Turn_Dialogue数据集由Kuo等人于2025年提出，旨在解决多轮对话中的安全推理问题。该数据集由多个研究机构合作构建，重点关注对话系统中潜在的安全风险识别与评估。通过标注对话目标、轮次、类别以及安全标签等特征，该数据集为研究社区提供了评估对话系统安全性的基准工具。其技术细节发表于arXiv预印本论文，推动了对话安全领域从单轮检测向多轮推理的范式转变。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，多轮对话的安全推理需要解决上下文依赖性强、风险累积效应等复杂问题，传统单轮检测方法难以应对；在构建过程中，标注工作需平衡细粒度分类与严重程度评估，不同安全类别的边界界定及跨轮次一致性维护构成显著挑战。对话场景的开放性与语言表达的多样性进一步增加了数据标注的复杂度。

常用场景

经典使用场景

在对话系统安全评估领域，Safety_Reasoning_Multi_Turn_Dialogue数据集通过多轮对话结构为研究者提供了丰富的交互场景。该数据集特别适用于测试对话模型在连续对话过程中识别潜在安全风险的能力，其标注的严重性等级和分类标签使研究者能够量化分析模型在不同风险维度上的表现。

衍生相关工作

该数据集已催生多项对话安全领域的重要研究，包括基于强化学习的动态风险干预框架、多模态安全检测模型等。其标注体系被后续研究扩展应用于跨文化安全对话评估，而对话连贯性（COT）标注则启发了安全性与对话流畅度平衡算法的新研究方向。

数据集最近研究