PKU-Alignment/BeaverTails|AI安全数据集|内容审核数据集
收藏数据集概述
名称: BeaverTails
目的: 专注于AI安全,用于研究以创建更安全、危害更小的AI系统。
内容: 包含人类标记的问题-答案(QA)对,每个QA对关联一个或多个伤害类别。
伤害类别:
- 动物虐待
- 儿童虐待
- 争议话题、政治
- 歧视、刻板印象、不公正
- 药物滥用、武器、禁用物质
- 金融犯罪、财产犯罪、盗窃
- 仇恨言论、冒犯性语言
- 关于伦理、法律和安全的错误信息
- 非暴力不道德行为
- 隐私侵犯
- 自我伤害
- 性内容、成人内容
- 恐怖主义、有组织犯罪
- 暴力、协助和教唆、煽动
数据集大小: 100K<n<1M
数据文件配置:
- 默认配置:
- 训练集:
- 330k_train: round0/330k/train.jsonl.xz
- 30k_train: round0/30k/train.jsonl.gz
- 测试集:
- 330k_test: round0/30k/test.jsonl.xz
- 30k_test: round0/30k/test.jsonl.gz
- 训练集:
许可证: CC BY-NC 4.0
语言: 英语
任务类别: 文本分类
标签: 安全、安全、AI安全、审核、拒绝采样、LLM、LM、人类反馈
使用警告: 数据集包含可能令人反感或不安的内容,应负责任地使用,并根据个人风险承受能力进行交互。不应用于训练对话代理,以免可能导致有害的模型行为。

中国近海地形数据集(渤海,黄海,东海,南海)
本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。
地球大数据科学工程 收录
CIFAR-10-C
CIFAR-10-C是一个用于评估机器学习模型鲁棒性的数据集。它是CIFAR-10数据集的变体,包含了对原始CIFAR-10图像应用多种不同类型的图像损坏(如噪声、模糊、对比度变化等)后的图像。该数据集旨在帮助研究人员测试和改进模型在面对图像损坏时的表现。
github.com 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
ai-hub2
本项目所使用的数据集名为“ai-hub2”,其主要目的是为改进YOLOv11的工地工程车辆装置检测系统提供高质量的训练数据。该数据集包含五个类别,分别是:钻孔机(boring_machine)、混凝土车(concrete_truck)、起重机(crane)、自卸车(dump_truck)和挖掘机(excavator)。这些类别涵盖了工地上常见的重型机械设备,能够有效支持车辆检测系统在复杂环境中的应用。
github 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录