redbench-v1

Hugging Face2025-03-27 更新2025-03-28 收录

下载链接：

https://huggingface.co/datasets/knoveleng/redbench-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置代表一个不同的数据集。每个数据集都包含多个字段，如提示(prompt)、选项(choices)、答案(answer)、任务(task)等，以及数据集的划分信息，如训练集的大小和示例数量。数据集的具体内容和应用领域根据不同的配置而异。

创建时间：

2025-03-26

原始信息汇总

数据集概述：redbench-v1

数据集基本信息

数据集名称: redbench-v1
数据集地址: https://huggingface.co/datasets/knoveleng/redbench-v1
配置数量: 28个独立配置

数据集配置详情

1. AdvBench

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 1094条
- 大小: 15.77 MB

2. CHiSafetyBench

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source
数据量:
- train: 0条
- 大小: 0 MB

3. CIVICS

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 140条
- 大小: 1.81 MB

4. CatQA

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 550条
- 大小: 7.90 MB

5. CoCoNot

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 1380条
- 大小: 15.16 MB

6. CoNA

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 178条
- 大小: 2.25 MB

7. CoSafe

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 1400条
- 大小: 17.15 MB

8. ControversialInstructions

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 40条
- 大小: 0.47 MB

9. CyberattackAssistance

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 1000条
- 大小: 15.00 MB

10. DAN

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 390条
- 大小: 4.91 MB

11. DeMET

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 29条
- 大小: 0.37 MB

12. DiaSafety

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 501条
- 大小: 5.77 MB

13. DoNotAnswer

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 939条
- 大小: 10.75 MB

14. ForbiddenQuestions

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 390条
- 大小: 4.94 MB

15. GEST

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 3565条
- 大小: 31.96 MB

16. GPTFuzzer

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 100条
- 大小: 1.48 MB

17. GandalfIgnoreInstructions

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 112条
- 大小: 1.32 MB

18. GandalfSummarization

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 13条
- 大小: 0.19 MB

19. HarmBench

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 320条
- 大小: 4.15 MB

20. HarmfulQ

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 200条
- 大小: 2.70 MB

21. HarmfulQA

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 1960条
- 大小: 24.09 MB

22. JADE

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 80条
- 大小: 0.95 MB

23. JBBBehaviours

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 100条
- 大小: 1.40 MB

24. KorNAT

特征:
- prompt, choices (sequence), answer (int64), task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 14条
- 大小: 0.13 MB

25. LatentJailbreak

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 2424条
- 大小: 41.09 MB

26. MaliciousInstruct

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 100条
- 大小: 1.28 MB

27. MaliciousInstructions

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 100条
- 大小: 1.31 MB

28. MedSafetyBench

特征:
- prompt, choices, answer, task, subtask, category, domain, language, source, risk_response, risk_property, domain_response, domain_property
数据量:
- train: 900条
- 大小: 10.98 MB

搜集汇总

数据集介绍

构建方式

redbench-v1数据集通过整合多个子数据集构建而成，涵盖AdvBench、CHiSafetyBench、CIVICS等多个领域的安全评估任务。每个子数据集均采用标准化的数据结构，包含提示文本、选项、答案及多维度的元数据标注。数据来源包括人工构建的对抗性问题和真实场景中的风险指令，通过严格的标注流程确保数据质量与多样性。

特点

该数据集以多维度风险标注为显著特征，涵盖风险响应、风险属性、领域响应等十余种结构化字段。其跨领域特性体现在覆盖网络安全、医疗安全、道德伦理等多样化场景，同时支持多语言评估。数据规模达数万条，包含单选、多选及开放式问答等多种任务类型，为模型安全评估提供全面基准。

使用方法

使用该数据集时，建议根据具体评估需求选择相应子数据集进行加载。通过HuggingFace数据集库可直接调用标准接口，按任务类型或风险类别筛选样本。典型应用包括模型安全对齐测试、风险检测能力评估等，研究人员可通过分析模型在不同风险维度上的响应，系统性地量化其安全性能。

背景与挑战

背景概述

redbench-v1数据集是近年来由多个研究机构联合构建的综合性安全评估基准，旨在测试和提升大型语言模型在应对潜在有害或敏感内容时的鲁棒性。该数据集整合了AdvBench、HarmBench、MaliciousInstructions等20余个子集，覆盖网络安全、医疗安全、道德伦理等多元领域。其核心研究问题聚焦于如何通过系统化的对抗性测试，揭示语言模型在风险响应、领域适应等方面的潜在缺陷。作为AI安全领域的重要基础设施，该数据集为模型对齐研究和安全防护策略的制定提供了关键数据支持。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，需要精准识别模型可能产生有害响应的边界场景，包括但不限于网络攻击诱导、医疗误诊风险等高度专业化领域；在构建过程中，需平衡数据的敏感性与多样性，既要确保测试案例的真实威胁性，又要避免引入偏见或过度暴露危险内容。多语言子集如KorNAT的构建还涉及跨文化语境下的风险属性标注难题，这对标注者的领域专业知识提出了极高要求。

常用场景

经典使用场景

在人工智能安全领域，redbench-v1数据集被广泛用于评估和测试大语言模型在面对潜在有害或敏感内容时的响应能力。该数据集通过精心设计的提示词和多样化的问题类型，模拟了真实场景中可能遇到的风险情境，为研究者提供了丰富的测试素材。特别是在模型鲁棒性和安全性评估方面，该数据集已成为行业标准测试工具之一。

实际应用

在实际应用中，redbench-v1被科技公司用于产品安全审计，政府机构用于制定AI监管政策，以及学术界用于开展人机交互安全研究。其涵盖的医疗、金融、社会伦理等多个领域的内容，使得该数据集能够支持跨行业的AI安全评估需求。

衍生相关工作

基于redbench-v1数据集，研究者已开发出多种先进的模型安全评估框架，如安全微调技术、对抗性训练方法等。该数据集还催生了系列重要学术成果，包括发表在NeurIPS、ICLR等顶级会议上的多篇关于AI安全的前沿研究论文。

以上内容由遇见数据集搜集并总结生成