redbench

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/knoveleng/redbench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个子数据集，每个子数据集都有其特定的配置名称和特征列表，描述了数据的不同属性。每个数据集还包括训练集的示例数量、文件大小和下载大小等信息。

This dataset consists of multiple sub-datasets. Each sub-dataset has its own specific configuration name and feature list, which describe the distinct attributes of the data. Additionally, each sub-dataset also includes relevant information such as the number of training samples, file size, and download size.

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，redbench数据集通过整合多个权威子集构建而成，涵盖AdvBench、HarmBench等32个专项配置。每个子集均采用标准化的数据采集流程，从提示词设计到答案标注均经过多轮人工校验，确保语料的质量与一致性。数据集构建过程中注重风险属性的精细划分，针对不同领域的安全威胁进行针对性采集，形成了具有层次化结构的评估体系。

特点

该数据集展现出多维度风险评估的显著特征，每个样本均标注了风险响应、风险属性、领域响应等十余个元数据字段。其语料覆盖网络安全、医疗安全、伦理道德等多元领域，具备任务类型与子任务的细粒度分类体系。数据集规模达到万余条样本，语言以英文为主，每个子集均保持独立的数据分布特性，为模型安全性评估提供全面基准。

使用方法

研究人员可通过加载特定配置名称调用子数据集，利用标准化的提示-答案对进行模型安全性测试。典型应用场景包括对齐训练的效果验证、红队测试的基准评估，以及多轮对话系统的风险检测。使用时应根据任务需求选择相应领域的子集，通过分析模型在风险属性标注样本上的表现，量化其安全防护能力。数据集的标准化接口支持直接接入主流机器学习框架进行批量测试。

背景与挑战

背景概述

在人工智能安全研究领域，redbench数据集作为综合性评估工具应运而生，旨在系统化检验大型语言模型的安全对齐性能。该数据集整合了AdvBench、HarmBench、DoNotAnswer等二十余个子集的多样化测试场景，覆盖网络安全、医疗伦理、社会偏见等关键领域。通过多维度风险属性标注和领域响应分析，redbench为模型安全评估提供了标准化基准，推动了可解释性安全研究范式的建立。

当前挑战

该数据集面临的核心挑战在于如何精准界定复杂语境下的安全边界，例如道德困境中文化差异导致的判断分歧。构建过程中需平衡测试用例的对抗性与真实性，避免生成式数据带来的标注一致性风险。多源数据集融合时出现的语义重叠和标准冲突问题，要求设计跨领域统一评估框架，同时保持各子集专业特性的完整性。

常用场景

经典使用场景

在人工智能安全评估领域，redbench数据集作为综合性基准测试工具，主要用于评估大型语言模型对有害指令的抵御能力。该数据集整合了AdvBench、HarmBench等多个子集，涵盖恶意指令、越狱攻击等多样化风险场景。研究人员通过设计对抗性提示词，系统性地检验模型在安全响应机制上的表现，为模型安全对齐研究提供标准化评估框架。

衍生相关工作

基于redbench的评估范式，学术界衍生出如安全强化学习对齐、对抗性提示词生成等创新研究方向。该数据集启发了Chain-of-Thought安全推理、多模态风险检测等延伸工作，推动了红队测试方法的标准化。相关研究成果为GPT-4、Claude等主流模型的安全迭代提供了重要参考依据。

数据集最近研究