SorryBenchFiltering
收藏Hugging Face2025-05-06 更新2025-05-07 收录
下载链接:
https://huggingface.co/datasets/AlignmentResearch/SorryBenchFiltering
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含多个配置的数据集,每个配置都包含提示文本、是否明确有害、推理说明和成本等特征。数据集分为多个子集,其中包括有害提示和无害提示的子集,以及用于训练的子集。每个子集都有不同的数据量和用途,例如,有些子集用于表示有害或无害的提示,有些用于单次使用场景,还有些用于正负样本的训练。
提供机构:
FAR AI
创建时间:
2025-05-06
原始信息汇总
数据集概述
基本信息
- 数据集名称: AlignmentResearch/SorryBenchFiltering
- 下载大小: 671.85 KB (默认配置)
- 数据集大小: 2.45 MB (默认配置)
配置信息
默认配置 (default)
- 特征:
- prompt (string)
- is_clear_harmful (bool)
- reasoning (string)
- cost (float64)
- 数据分割:
- harmful_max_prompts_3000: 1,865 个样本
- non_harmful_max_prompts_3000: 655 个样本
harmful_max_prompts_10 配置
- 特征:
- prompt (string)
- is_clear_harmful (bool)
- reasoning (string)
- cost (float64)
- 数据分割:
- train: 10 个样本
max_prompts_10 配置
- 特征:
- prompt (string)
- is_harmful (bool)
- reasoning (string)
- cost (float64)
- 数据分割:
- train: 10 个样本
max_prompts_100 配置
- 特征:
- prompt (string)
- is_single_use (bool)
- reasoning (string)
- cost (float64)
- 数据分割:
- single_use: 98 个样本
- non_single_use: 2 个样本
max_prompts_3000 配置
- 特征:
- prompt (string)
- label (bool)
- reasoning (string)
- cost (float64)
- 数据分割:
- pos: 109 个样本
- neg: 11 个样本
model_o4-mini 配置
- 特征:
- prompt (string)
- label (bool)
- reasoning (string)
- cost (float64)
- 数据分割:
- pos: 113 个样本
- neg: 6 个样本
搜集汇总
数据集介绍

构建方式
在人工智能安全研究领域,SorryBenchFiltering数据集通过多维度标注策略构建而成。该数据集采用分层抽样方法,从有害提示词和非有害提示词两个维度采集数据,并细分为不同规模的数据子集。每个样本均包含原始提示文本、危害性标注、人工审核推理过程以及标注成本四个核心字段,通过严格的众包标注与专家复核相结合的方式确保数据质量。数据划分采用非对称分布设计,真实反映网络环境中有害内容的出现频率。
特点
该数据集最显著的特征在于其细粒度的危害性标注体系。除基础的二元分类标签外,每个样本均附带审核人员的详细推理过程,为研究可解释AI提供了宝贵资源。数据规模呈现阶梯式分布,从10条到3000条不等的子集配置满足不同研究场景需求。特别值得注意的是,数据集记录了每条样本的标注成本,为研究标注效率与经济性提供了独特视角。各子集间保持特征字段的一致性,支持跨规模对比研究。
使用方法
使用该数据集时,研究者可根据实验需求选择不同规模的配置版本。基础版本包含1865条有害提示和655条无害提示,适合大规模模型训练。微型版本如max_prompts_10则适用于快速原型验证。数据加载可通过HuggingFace标准接口实现,各子集以独立拆分形式存储,支持按危害类型或使用场景灵活调用。建议结合reasoning字段开展可解释性研究,或利用cost字段进行标注效率分析。对于模型安全评估,推荐采用交叉验证方式结合不同子集进行鲁棒性测试。
背景与挑战
背景概述
SorryBenchFiltering数据集是近年来针对人工智能伦理与安全领域开发的重要资源,专注于识别和过滤有害提示信息。该数据集由专业研究团队构建,旨在解决生成式AI模型中潜在的有害内容生成问题。通过标注大量提示文本的有害性标签及判断依据,为研究者提供了评估模型安全性的基准工具。其多维度特征设计反映了当前AI安全领域对透明性和可解释性的追求,已成为衡量对话系统伦理边界的重要参考标准之一。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,如何准确界定'有害内容'的边界存在主观性难题,不同文化背景可能导致标注标准差异;构建过程中,平衡数据规模与标注质量的关系尤为关键,高成本的专家标注与快速扩展的需求形成矛盾。同时,动态演变的网络用语和新兴有害内容形式,对数据集的时效性维护提出了持续性要求。多维度标注带来的数据稀疏问题也增加了模型训练的复杂度。
常用场景
经典使用场景
在人工智能安全领域,SorryBenchFiltering数据集被广泛应用于评估和优化内容过滤系统的性能。该数据集通过标注有害和非有害的提示文本,为研究者提供了丰富的语料库,用于训练和测试模型在识别潜在有害内容方面的能力。经典使用场景包括构建自动化内容审核工具,以及开发能够实时检测并过滤不当言论的算法。
解决学术问题
SorryBenchFiltering数据集有效解决了人工智能领域中的内容安全与伦理问题。通过提供大量标注数据,该数据集帮助研究者深入探究语言模型在生成或处理有害内容时的行为模式。其意义在于为构建更加安全、可靠的AI系统提供了数据支持,推动了内容过滤技术的进步,减少了潜在的社会风险。
衍生相关工作
基于SorryBenchFiltering数据集,研究者们开发了多种先进的内容过滤模型和算法。例如,一些工作利用该数据集训练了基于Transformer的深度学习模型,显著提升了有害内容检测的准确率。此外,该数据集还催生了一系列关于AI伦理和安全的研究,为相关领域的学术进展提供了重要支持。
以上内容由遇见数据集搜集并总结生成



