red_team_repo_social_bias_prompts
收藏Hugging Face2024-09-24 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/svannie678/red_team_repo_social_bias_prompts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了一个聚合和统一的现有红队测试提示集合,旨在识别文本生成大型语言模型(LLMs)中的刻板印象、歧视、仇恨言论和其他代表性危害。数据集包括来自13个独特数据集的大约40,000个提示(及部分响应),这些提示经过精心评估以确保其相关性和质量。数据集的结构包括多个统一列,如组织名称、分类、提示类型、提示指令、提示内容、解释和AI响应。该数据集是作者AI安全顶点项目的一部分,旨在促进关于AI伦理实践的讨论。
This dataset contains an aggregated and unified collection of existing red team testing prompts, designed to identify stereotypes, discrimination, hate speech, and other representational harms in text-generating large language models (LLMs). It comprises approximately 40,000 prompts (and partial responses) sourced from 13 distinct datasets, which have been meticulously evaluated to ensure their relevance and quality. The dataset includes multiple standardized columns, such as organization name, category, prompt type, prompt instruction, prompt content, explanation, and AI response. This dataset is part of the authors' AI Safety Vertex Project, aiming to facilitate discussions around ethical AI practices.
创建时间:
2024-09-11
原始信息汇总
数据集卡片:A Red-Teaming Repository of Existing Social Bias Prompts
概述
该数据集包含聚合和统一的现有红队提示,旨在识别文本生成大型语言模型(LLMs)中的刻板印象、歧视、仇恨言论和其他代表性危害。
数据集详情
该数据集是我AI安全顶点项目的一部分,包含约40,000个提示(及部分响应),来自13个独特的数据集。每个数据集都经过仔细评估,以确保相关性和质量,支持对LLMs中社会危害的有效红队分析。
数据集结构
数据集包含以下统一列:
| 列名 | 描述 |
|---|---|
organization |
发布原始数据集的组织名称。 |
categorization |
原始数据集中的特定分类。 |
prompt_type |
分类为单个提示或多轮对话。 |
prompt_instructions |
生成提示的指令,由原始数据集指定(并非所有数据集都包含此信息)。 |
prompt |
实际的红队提示;如果提示类型是多轮的,则包含提示和响应。 |
explanation |
提示提交的解释,由原始数据集指定(并非所有数据集都包含此信息)。 |
ai_response |
LLM的响应,由原始数据集指定(并非所有数据集都包含此信息)。 |
数据集信息
- 语言:英语
- 大小类别:10K<n<100K
- 任务类别:文本生成
- 数据集大小:18125431字节
- 下载大小:6605575字节
- 训练集:40317个样本,18125431字节
搜集汇总
数据集介绍

构建方式
该数据集通过整合13个独特的数据源,构建了一个包含约40,000条提示及其相关响应的统一数据集。每个数据源均经过严格评估,以确保其与识别大型语言模型(LLMs)中的社会偏见、歧视和仇恨言论等问题的相关性。数据集的结构化设计旨在支持有效的红队分析,帮助揭示LLMs在文本生成过程中可能存在的伦理风险。
特点
该数据集的特点在于其广泛的覆盖范围和多样化的提示类型。它不仅包含单一提示,还涵盖了多轮对话的复杂场景。每个提示均附有详细的元数据,如发布机构、分类、提示类型及生成指令等,这些信息为研究者提供了丰富的上下文背景。此外,部分提示还包含了LLM的响应,进一步增强了数据集的研究价值。
使用方法
该数据集适用于研究LLMs在生成文本时可能产生的社会偏见和伦理问题。研究者可以通过分析提示及其响应,评估模型的偏见程度,并开发相应的缓解策略。数据集的结构化设计使其易于集成到现有的机器学习流程中,支持从数据预处理到模型评估的完整研究链条。此外,数据集还可用于教育目的,帮助从业者理解AI伦理的重要性。
背景与挑战
背景概述
red_team_repo_social_bias_prompts数据集由svannie678在2024年作为AI安全项目的一部分创建,旨在通过聚合和统一现有的红队测试提示,识别大型语言模型(LLMs)中的社会偏见问题,如刻板印象、歧视、仇恨言论等。该数据集整合了来自13个独特数据集的约40,000条提示及其部分响应,经过严格筛选以确保相关性和质量,为LLMs的社会危害分析提供了有效支持。该项目的核心研究问题在于如何通过系统化的红队测试揭示并减少LLMs中的社会偏见,从而推动更公平、更安全的AI技术发展。
当前挑战
该数据集面临的主要挑战包括:1) 在解决社会偏见问题时,如何确保提示的多样性和代表性,以覆盖广泛的社会群体和情境;2) 在构建过程中,如何平衡数据的敏感性与研究需求,避免对用户造成心理伤害;3) 如何整合来自不同来源的数据,确保格式和内容的统一性,同时保留原始数据的上下文信息。此外,由于涉及敏感话题,数据集的发布和使用需严格遵守伦理规范,避免不当传播或滥用。
常用场景
经典使用场景
在人工智能安全领域,red_team_repo_social_bias_prompts数据集被广泛用于测试和评估大型语言模型(LLMs)中的社会偏见问题。通过提供包含刻板印象、歧视、仇恨言论等敏感话题的提示,研究人员能够系统地分析模型在这些情境下的表现,从而识别潜在的伦理风险。
实际应用
在实际应用中,red_team_repo_social_bias_prompts数据集被用于训练和测试AI系统的偏见检测能力。例如,企业可以利用该数据集对其产品中的语言模型进行伦理审查,确保其输出内容符合社会道德标准。此外,教育机构也可借助该数据集开展AI伦理课程,帮助学生理解并应对AI技术中的社会偏见问题。
衍生相关工作
基于red_team_repo_social_bias_prompts数据集,许多经典研究工作得以展开。例如,研究人员开发了新的偏见检测算法,并提出了改进模型公平性的训练方法。此外,该数据集还促进了跨学科合作,推动了AI伦理、社会学和心理学等领域的交叉研究,为构建更负责任的AI系统提供了理论支持。
以上内容由遇见数据集搜集并总结生成



