five

nvidia/Aegis-AI-Content-Safety-Dataset-1.0|AI内容安全数据集|文本分类数据集

收藏
hugging_face2024-06-28 更新2024-06-15 收录
AI内容安全
文本分类
下载链接:
https://hf-mirror.com/datasets/nvidia/Aegis-AI-Content-Safety-Dataset-1.0
下载链接
链接失效反馈
资源简介:
Aegis AI内容安全数据集1.0是一个开源的内容安全数据集(CC-BY-4.0),遵循Nvidia的内容安全分类法,涵盖了13个关键风险类别。该数据集包含约11,000条人工注释的人类与LLM之间的交互数据,分为10,798条训练样本和1,199条测试样本。数据集来源于Anthropic HH-RLHF和Mistral-7B-v0.1,注释由12名注释者和2名数据质量保证人员完成。数据集的使用包括构建内容审核护栏和对齐LLM以生成安全响应,但不适用于训练对话代理。数据集的创建过程包括严格的质量保证和注释者培训,确保数据的多样性和准确性。
提供机构:
nvidia
原始信息汇总

🛡️ Aegis AI Content Safety Dataset 1.0

数据集详情

数据集描述

Aegis AI Content Safety Dataset 是一个开源的内容安全数据集(CC-BY-4.0),包含约 11,000 条人工标注的人机交互数据,分为 10,798 条训练样本和 1,199 条测试样本。数据集遵循 Nvidia 的内容安全分类法,涵盖 13 个关键风险类别。

数据集的构建使用了 Hugging Face 版本的 Anthropic HH-RLHF 中关于无害性的人类偏好数据,仅提取提示,并从 Mistral-7B-v0.1 生成响应。数据集包含四种格式:仅用户提示、系统提示加用户提示、单轮用户提示加 Mistral 响应、多轮用户提示加 Mistral 响应。

样本按以下分类法标注:

Nvidia 的内容安全分类法
仇恨/身份仇恨
暴力
自杀和自残
威胁
性少数
枪支/非法武器
管制/受控物质
犯罪计划/自白
PII
骚扰
亵渎
其他
需要谨慎

数据集来源

  1. 使用 Hugging Face 版本的 Anthropic HH-RLHF 中关于无害性的人类偏好数据。
  2. 仅提取提示,并从 Mistral-7B-v0.1 生成响应。
  3. 标注工作由 十二 名标注员和 两名 数据质量保证人员完成,使用 Nvidia 的数据团队。

用途

直接用途

  1. 构建围绕 LLM 的内容审核防护措施。
  2. 使用 SFT 或 DPO 方法使 LLM 生成安全响应。

超出范围的用途

数据包含可能具有冒犯性或令人不安的内容。主题包括但不限于歧视性语言和关于虐待、暴力、自残、剥削和其他可能令人不安的主题的讨论。请仅根据您个人的风险承受能力与数据互动。数据旨在用于研究目的,特别是可以减少模型危害的研究。数据中的观点不代表 Nvidia 或其员工的观点。这些数据不适用于训练对话代理,因为这可能导致有害的模型行为。

数据集创建

标注过程

质量保证(QA)由项目负责人维护。每周两到三次,负责人随机选择每 100 个问题中的 15 个,由三名标注员重新评估。这占数据分析的 15%,通常至少有 20% 到 30% 的数据被分析以进一步确保质量。这些更正作为审计发送给每个标注员,并附有简短的解释,说明为什么根据项目指南进行了某些更正。数据集通常分为 2,000-4,000 个基于文本的提示,并以 3 到 5 个批次分发给标注员。在每个批次之间,负责人或指定负责人至少需要一整天的时间让标注员自我纠正他们的分类工作。许多培训课程已经在这个项目的整个过程中举行,以提供自我纠正时的最佳实践提示,包括通过数据中的关键词过滤、参考定期更新的 FAQ 表和示例问题,以及随机选择已完成的问题进行重新评估。标注员被指示仅自我纠正他们自己的工作,避免查看任何其他标注。两位负责人也随时待命,以确保对材料的一致理解。每两周或根据项目情况需要举行强制性的虚拟小组培训。这些会议由负责人领导,通常利用常见差异的示例作为学习机会。

标注员是谁?

在内容审核防护措施项目的三个月时间内,我们平均有 12 名标注员。其中,4 名标注员来自工程背景,专长于数据分析和收集、游戏和机器人技术。8 名标注员具有创意写作背景,专长于语言学、研发和其他创意艺术,如摄影和电影。所有标注员都经过大量培训,能够使用大型语言模型(LLM)以及其他生成式 AI,如图像检索或多轮对话评估。所有标注员都能够生成创意文本输出和分类工作。这 12 名标注员均居住在美国,来自不同的种族和宗教背景,代表了不同的种族、年龄和社会地位。

个人和敏感信息

该数据集包含从 Mistral-7B-v0.1 生成的 LLM 响应。我们已经仔细检查了数据,并移除了任何可能包含个人信息的内容。然而,仍有可能某些个人信息可能留在数据中。如果您在数据中发现任何您认为不应公开的内容,请立即通知我们。

偏见、风险和限制

  • 安全性和审核: 该数据集旨在用于构建内容审核系统或使 LLM 生成安全响应。由于工作的性质,数据集包含关键的不安全内容和针对该内容的标注。在参考和使用此数据集时应极其谨慎。
  • 法律合规性: 数据集的用户应负责确保其适当使用。数据集的使用不应与法律和伦理标准冲突。
  • 非识别性: 数据集的用户同意不试图确定该数据集中个人的身份。

伦理声明

Aegis AI Content Safety Dataset 的创建过程遵循伦理数据分类工作,基于 Label Studio 这一开源数据标注工具,常用于 Nvidia 的内部项目。该工具技术允许大量数据由单个标注员分析,而不会看到其同行的工作。这对于防止标注员之间的偏见以及向每个个体提供具有变异性的提示至关重要,以避免标注员基于数据初始排列完成类似的任务。

由于该项目的严肃性质,标注员被要求自愿加入,基于他们的技能水平、可用性和愿意暴露于潜在有毒内容。在项目开始工作之前,所有参与者都被要求签署一份“成人内容确认”,与组织的现有反骚扰政策和行为准则一致。这是为了确保所有标注员了解这项工作的性质,以及在影响他们的心理健康时应提供的资源。项目负责人与每个标注员定期举行一对一会议,以确保他们仍然对材料感到舒适,并且能够继续进行这种类型的工作。

引用

BibTeX:

@article{ghosh2024aegis, title={AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts}, author={Ghosh, Shaona and Varshney, Prasoon and Galinkin, Erick and Parisien, Christopher}, journal={arXiv preprint arXiv:2404.05993}, year={2024} }

数据集卡作者

Shaona Ghosh, shaonag@nvidia.com

数据集卡联系

shaonag@nvidia.com

AI搜集汇总
数据集介绍
main_image_url
构建方式
Aegis AI Content Safety Dataset 1.0的构建基于Nvidia的内容安全分类法,涵盖了13个关键风险类别。该数据集由大约11,000个手动注释的人类与大型语言模型(LLMs)的交互组成,分为10,798个训练样本和1,199个测试样本。数据集的构建过程包括从Anthropic HH-RLHF数据集中提取提示,并使用Mistral-7B-v0.1生成响应。通过系统提示确保响应的多样性,数据集包含四种不同格式:仅用户提示、系统提示与用户提示、单轮用户提示与Mistral响应、多轮用户提示与Mistral响应。
特点
Aegis AI Content Safety Dataset 1.0的主要特点在于其广泛的风险类别覆盖和高质量的注释。数据集不仅涵盖了从仇恨言论到自杀自残等多个敏感话题,还通过多样化的提示和响应格式,确保了数据的多维性和实用性。此外,数据集的注释过程严格遵循质量保证标准,通过定期的审核和自我纠正机制,确保了注释的一致性和准确性。
使用方法
Aegis AI Content Safety Dataset 1.0主要用于构建大型语言模型的内容审核机制,以及通过监督式微调(SFT)或直接偏好优化(DPO)方法使模型生成更安全的响应。使用该数据集时,用户需注意数据中可能包含的敏感内容,并确保在符合法律和伦理标准的前提下进行使用。此外,数据集不适合用于训练对话代理,以避免潜在的有害模型行为。
背景与挑战
背景概述
在人工智能迅速发展的背景下,内容安全问题日益凸显。Aegis AI Content Safety Dataset 1.0由Nvidia的Shaona Ghosh主导,旨在通过提供一个包含约11,000条手动标注的交互数据集,来解决大型语言模型(LLMs)在内容安全方面的挑战。该数据集涵盖了13个关键风险类别,包括仇恨言论、性内容、暴力等,旨在帮助构建内容审核系统,确保LLMs生成安全且符合规范的响应。这一数据集的创建不仅为内容安全领域提供了宝贵的资源,还推动了相关技术的研究与应用,具有重要的学术和实际意义。
当前挑战
Aegis AI Content Safety Dataset 1.0在构建过程中面临多项挑战。首先,数据集的标注过程复杂,涉及12名标注员和2名数据质量保证人员,需确保标注的一致性和准确性。其次,数据集包含敏感和潜在有害的内容,如歧视性语言和暴力讨论,这要求在使用时需特别谨慎,避免对用户造成心理影响。此外,数据集的多样性和代表性也是一个挑战,需确保不同背景和视角的标注员参与,以减少偏见。最后,法律和伦理合规性问题也是一大挑战,用户需确保数据集的使用符合相关法律和伦理标准,避免潜在的法律风险。
常用场景
经典使用场景
在人工智能内容安全领域,Aegis AI Content Safety Dataset 1.0 数据集被广泛用于构建和优化大型语言模型(LLMs)的内容审核机制。该数据集通过包含约11,000个手动注释的交互样本,涵盖了13个关键风险类别,为研究人员和开发者提供了一个详尽的资源库,用于训练和评估模型在处理有害内容时的表现。其经典使用场景包括但不限于:通过监督学习或强化学习方法,对LLMs进行微调,以确保其生成的内容符合安全标准,避免传播仇恨言论、暴力、自残等不良信息。
解决学术问题
Aegis AI Content Safety Dataset 1.0 数据集在学术研究中解决了多个关键问题。首先,它为研究者提供了一个标准化的数据集,用于评估和改进内容审核算法的性能。其次,通过详细的注释和多样的数据格式,该数据集有助于深入研究语言模型在生成内容时的潜在风险,从而推动更安全、更可靠的AI系统的发展。此外,该数据集还为跨学科研究提供了基础,如心理学、社会学和计算机科学的交叉领域,探讨如何通过技术手段减少有害内容的传播。
衍生相关工作
Aegis AI Content Safety Dataset 1.0 数据集的发布催生了多项相关研究和工作。例如,基于该数据集的研究论文《AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts》探讨了如何通过集成多个LLM专家模型,实现在线自适应的内容安全审核。此外,该数据集还启发了其他研究者开发新的内容审核算法和模型,如基于深度学习的分类器和强化学习策略,进一步提升了内容安全领域的技术水平。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

中指数据库(物业版)

物业版解决物业企业“找项目”、“找行业和企业数据"的迫切需求,提供高效的市场拓展渠道、最新行业动态、竞品企业的多维度数据,助力企业科学决策。

西部数据交易中心 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录