five

PKU-Alignment/BeaverTails|AI安全数据集|内容审核数据集

收藏
hugging_face2023-10-17 更新2024-03-04 收录
AI安全
内容审核
下载链接:
https://hf-mirror.com/datasets/PKU-Alignment/BeaverTails
下载链接
链接失效反馈
资源简介:
BeaverTails是一个专注于AI安全性的数据集集合,包含一系列人类标注的问答对,每个问答对都标有相应的伤害类别。数据集涵盖了14种伤害类别,如动物虐待、儿童虐待、歧视、仇恨言论等。数据集旨在用于研究,特别是创建更安全、危害更小的AI系统的研究。数据集包含多个分割,如330k_train、330k_test、30k_train和30k_test。
提供机构:
PKU-Alignment
原始信息汇总

数据集概述

名称: BeaverTails

目的: 专注于AI安全,用于研究以创建更安全、危害更小的AI系统。

内容: 包含人类标记的问题-答案(QA)对,每个QA对关联一个或多个伤害类别。

伤害类别:

  1. 动物虐待
  2. 儿童虐待
  3. 争议话题、政治
  4. 歧视、刻板印象、不公正
  5. 药物滥用、武器、禁用物质
  6. 金融犯罪、财产犯罪、盗窃
  7. 仇恨言论、冒犯性语言
  8. 关于伦理、法律和安全的错误信息
  9. 非暴力不道德行为
  10. 隐私侵犯
  11. 自我伤害
  12. 性内容、成人内容
  13. 恐怖主义、有组织犯罪
  14. 暴力、协助和教唆、煽动

数据集大小: 100K<n<1M

数据文件配置:

  • 默认配置:
    • 训练集:
      • 330k_train: round0/330k/train.jsonl.xz
      • 30k_train: round0/30k/train.jsonl.gz
    • 测试集:
      • 330k_test: round0/30k/test.jsonl.xz
      • 30k_test: round0/30k/test.jsonl.gz

许可证: CC BY-NC 4.0

语言: 英语

任务类别: 文本分类

标签: 安全、安全、AI安全、审核、拒绝采样、LLM、LM、人类反馈

使用警告: 数据集包含可能令人反感或不安的内容,应负责任地使用,并根据个人风险承受能力进行交互。不应用于训练对话代理,以免可能导致有害的模型行为。

AI搜集汇总
数据集介绍
main_image_url
构建方式
BeaverTails数据集的构建聚焦于AI安全领域,通过收集并标注大量问答对(QA pairs),并将其与14种不同的危害类别相关联。每个问答对可能涉及多个危害类别,确保了数据的多维度性和复杂性。数据集的构建过程包括对内容的细致分类和人工标注,旨在为研究者提供一个全面且细致的危害分类框架,以支持AI系统的安全性研究。
特点
BeaverTails数据集的显著特点在于其多维度的危害分类体系,涵盖了从动物虐待到恐怖主义等14种不同的危害类别。此外,数据集的多样性和复杂性体现在每个问答对可能涉及多个危害类别,这为研究者提供了丰富的分析和训练材料。数据集的规模适中,包含超过33万条训练数据和3万条测试数据,适合进行大规模的模型训练和评估。
使用方法
使用BeaverTails数据集时,研究者可以通过HuggingFace的datasets库轻松加载数据。例如,可以使用`load_dataset`函数加载整个数据集或特定部分,如训练集或测试集。数据集的设计旨在支持AI安全研究,特别是用于训练和评估能够识别和避免有害内容的模型。需要注意的是,该数据集不应用于训练对话代理,以避免潜在的有害模型行为。
背景与挑战
背景概述
BeaverTails数据集是由PKU-Alignment团队创建的一个专注于AI安全领域的数据集,旨在通过提供人类标注的问答对及其对应的危害类别,帮助研究者开发更安全的AI系统。该数据集包含超过33万条训练数据和3万条测试数据,涵盖14种不同的危害类别,如动物虐待、儿童虐待、仇恨言论等。其创建时间可追溯至2023年,主要研究人员来自北京大学对齐团队,核心研究问题是如何通过标注数据来识别和分类AI系统可能产生的危害行为。该数据集的发布对AI安全领域的研究具有重要意义,尤其是在推动AI系统在处理敏感话题时的安全性和道德性方面。
当前挑战
BeaverTails数据集在构建过程中面临多项挑战。首先,标注过程涉及对复杂且敏感话题的分类,要求标注者具备高度的专业性和判断力,以确保标注的准确性和一致性。其次,数据集中包含的内容可能涉及暴力、歧视等令人不适的主题,如何在保证数据真实性的同时,避免对研究者和使用者造成心理负担,是一个重要的伦理挑战。此外,数据集的使用限制也带来了挑战,例如明确禁止用于训练对话代理,以防止潜在的有害模型行为,这要求研究者在利用该数据集时需严格遵守使用规范。
常用场景
经典使用场景
BeaverTails数据集在人工智能安全领域中扮演着重要角色,其经典使用场景主要集中在文本分类任务中。该数据集通过包含大量经过人工标注的问答对(QA pairs),并根据14种不同的危害类别进行分类,为研究者提供了一个详尽的资源库,用于训练和评估模型在识别和分类有害内容方面的能力。这种精细化的分类使得研究者能够针对特定类型的危害进行深入分析和模型优化,从而提升AI系统在内容审核和安全防护方面的表现。
衍生相关工作
BeaverTails数据集的发布激发了大量相关研究工作,特别是在人工智能安全和内容审核领域。许多研究者利用该数据集进行模型训练和评估,开发出更高效的有害内容检测算法。此外,该数据集还促进了多任务学习和迁移学习在AI安全领域的应用,使得模型能够在不同危害类别之间共享知识,提升整体检测性能。相关研究成果已在多个学术会议上发表,进一步推动了人工智能安全技术的发展。
数据集最近研究
最新研究方向
在人工智能安全领域,BeaverTails数据集的最新研究方向主要集中在通过多类别分类任务来识别和分类潜在的有害内容。该数据集包含了14种不同类型的危害类别,涵盖了从动物虐待到恐怖主义等多个敏感领域,旨在帮助研究人员开发更加安全和负责任的AI系统。当前的研究趋势聚焦于利用这些标注数据进行模型训练,以提升AI在内容审核和安全过滤方面的能力。此外,BeaverTails数据集还为探索基于人类反馈的强化学习(RLHF)提供了丰富的资源,这对于减少AI系统在实际应用中可能产生的负面影响具有重要意义。通过这些前沿研究,BeaverTails数据集不仅推动了AI安全技术的进步,也为构建更加可靠和道德的AI系统提供了关键支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海地形数据集(渤海,黄海,东海,南海)

本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。

地球大数据科学工程 收录

CIFAR-10-C

CIFAR-10-C是一个用于评估机器学习模型鲁棒性的数据集。它是CIFAR-10数据集的变体,包含了对原始CIFAR-10图像应用多种不同类型的图像损坏(如噪声、模糊、对比度变化等)后的图像。该数据集旨在帮助研究人员测试和改进模型在面对图像损坏时的表现。

github.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

ai-hub2

本项目所使用的数据集名为“ai-hub2”,其主要目的是为改进YOLOv11的工地工程车辆装置检测系统提供高质量的训练数据。该数据集包含五个类别,分别是:钻孔机(boring_machine)、混凝土车(concrete_truck)、起重机(crane)、自卸车(dump_truck)和挖掘机(excavator)。这些类别涵盖了工地上常见的重型机械设备,能够有效支持车辆检测系统在复杂环境中的应用。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录