PKU-Alignment/PKU-SafeRLHF|人工智能伦理数据集|模型安全数据集
收藏数据集概述
数据集名称
PKU-SafeRLHF
许可证
cc-by-nc-4.0
任务类别
- text-generation
语言
- en
标签
- safe
- safety
- ai-safety
- llm
- lm
- human-feedback
- rlhf
- safe-rlhf
大小类别
- 100K<n<1M
数据集内容
- 包含30k+专家比较数据。
- 每个条目包括两个对问题的回答,以及安全元标签和偏好,考虑了帮助性和无害性。
评估标准
无害性
- 根据14个伤害类别的风险中性评估,确保QA对不产生或促进任何有害后果。
帮助性
- 评估回答对给定提示的有效性,关注信息的品质、清晰度和相关性。
使用方法
python from datasets import load_dataset
dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")
相关文献
- Dataset Paper: https://arxiv.org/abs/2307.04657

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
数据堂—103,282张驾驶员行为标注数据
103,282张驾驶员行为标注数据涵盖多年龄段、多时间段、多种行为(危险驾驶行为、疲劳驾驶行为、视线偏移行为)。在标注方面,对人脸72关键点(包括瞳孔)、人脸属性、手势检测框、安全带检测框、瞳孔关键点、行为类别进行标注。本套驾驶员行为标注数据可用于驾驶员行为分析等任务
魔搭社区 收录