five

Anthropic/hh-rlhf

收藏
hugging_face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Anthropic/hh-rlhf
下载链接
链接失效反馈
资源简介:
该数据集包含两种类型的数据:1) 关于帮助性和无害性的人类偏好数据,这些数据用于训练偏好模型或奖励模型,以便后续的RLHF训练;2) 人类生成和注释的红队对话数据,这些数据用于理解众包工作者如何红队模型以及哪些类型的红队攻击是成功的。数据集可能包含令人不适的内容,如歧视性语言、虐待、暴力、自残、剥削等话题,因此仅建议在个人风险承受范围内使用。数据集的目的是用于研究,特别是减少模型危害的研究。数据集的格式包括JSONL文件,其中包含对话记录、无害性评分、模型参数数量、模型类型、红队成员评分等字段。
提供机构:
Anthropic
原始信息汇总

数据集卡片 for HH-RLHF

数据集概述

本仓库提供两种不同类型的数据:

  1. 关于帮助性和无害性的人类偏好数据,来自论文《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》。这些数据旨在用于后续RLHF训练的偏好(或奖励)模型训练,不适用于对话代理的监督训练
  2. 来自《Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned》的人类生成和注释的红队对话数据。这些数据旨在理解人群工作者如何红队模型以及哪些类型的红队攻击是成功的或不成功的,不适用于微调或偏好建模

免责声明:数据(尤其是无害性偏好数据和红队数据)包含可能令人反感或不安的内容。主题包括但不限于歧视性语言和关于虐待、暴力、自残、剥削和其他可能令人不安的主题的讨论。请仅根据您个人的风险承受能力与数据互动。数据旨在用于研究目的,特别是可以减少模型危害的研究。数据中的观点不代表Anthropic或其员工的观点。

关于帮助性和无害性的人类偏好数据(PM数据)

数据格式非常简单,每个jsonl文件的每一行包含一对文本,一个是“chosen”,另一个是“rejected”。

  • 帮助性:数据分为三个部分:基础模型(上下文蒸馏的52B语言模型)、拒绝抽样(主要使用best-of-16抽样)和迭代“在线”过程的抽样数据。
  • 无害性:数据仅从基础模型收集,格式相同。

数据收集过程和人群工作者群体的详细信息可在论文的第2节和附录D中找到。

红队数据(非PM数据)

每个jsonl文件的每一行包含一个字典,字段包括:

  • transcript:人类对手(红队成员)和AI助手之间的对话记录。
  • min_harmlessness_score_transcript:AI助手的无害性得分(越低越有害)。
  • num_params:驱动AI助手的语言模型的参数数量。
  • model_type:驱动AI助手的模型类型。
  • rating:红队成员对成功破坏AI助手的评级(Likert量表,越高越成功)。
  • task_description:红队成员关于如何尝试红队AI助手的简短描述。
  • task_description_harmlessness_score:任务描述的无害性得分(越低越有害)。
  • red_team_member_id:红队成员的任意标识符。
  • is_upworker:红队成员是否来自Upwork平台的二进制指示符。
  • tags:每个对话记录的最多6个标签,描述红队尝试。

数据和数据收集程序的详细信息可在论文的附录中的Datasheet中找到。

使用方法

每个数据集位于单独的子目录中。加载单个子集的方法如下:

python from datasets import load_dataset

加载所有帮助性/无害性子集(共享相同的模式)

dataset = load_dataset("Anthropic/hh-rlhf")

加载其中一个无害性子集

dataset = load_dataset("Anthropic/hh-rlhf", data_dir="harmless-base")

加载红队子集

dataset = load_dataset("Anthropic/hh-rlhf", data_dir="red-team-attempts")

AI搜集汇总
数据集介绍
main_image_url
构建方式
HH-RLHF数据集的构建基于人类反馈强化学习原理,旨在通过人类偏好的数据训练出有助于无害的助手。该数据集包含两部分:一部分是人类对助手的帮助性和无害性的偏好数据,另一部分是红队对话数据。帮助性数据通过三轮迭代收集,包括基础模型、拒绝采样和在线过程采样。而无害性数据则仅针对基础模型进行收集。红队对话数据则是由人类对抗者与AI助手的对话记录构成,旨在理解成功的红队尝试是什么样子的。
特点
HH-RLHF数据集的特点在于其独特的构建目的和内容。它不是用于监督训练对话代理,而是用于训练偏好模型和红队对抗模型。数据集中的内容包含可能具有攻击性或令人不适的话题,因此仅供研究使用,特别是那些能够使模型变得不那么有害的研究。数据集的每一行都是JSON格式,包含对话记录、AI助手的无害性评分、模型参数数量、模型类型、红队成员的评分等信息。
使用方法
使用HH-RLHF数据集时,研究者可以通过`load_dataset()`函数加载不同子目录下的数据集。帮助性和无害性子集共享相同的模式,而红队尝试子集则单独加载。加载时,需要指定`data_dir`参数以选择正确的子集。使用数据集进行研究时,应遵循个人风险承受能力,并确保数据的合理使用。
背景与挑战
背景概述
Anthropic/hh-rlhf数据集,由Anthropic公司的研究团队于2022年开发,旨在通过人类反馈的强化学习训练出既有帮助又无害的助手。该数据集的核心研究问题是提高人工智能模型在交互中的安全性和有用性,对人工智能领域的发展具有重要的推动作用。数据集包含了人类对帮助性和无害性的偏好数据,以及人类生成的对抗性对话数据,这些数据为研究如何减少模型危害提供了宝贵的资源。
当前挑战
该数据集在构建过程中面临的挑战主要包括如何准确收集和标注人类偏好数据,以及如何有效利用对抗性对话数据进行模型的安全性评估。此外,数据集中包含的敏感和令人不适内容也带来了数据使用的伦理挑战。研究者在使用这些数据时,必须谨慎处理,以确保研究目的符合伦理标准,避免加剧模型的危害性。
常用场景
经典使用场景
在机器学习领域,尤其是自然语言处理中,HH-RLHF数据集的应用显得尤为重要。该数据集通过提供人类偏好的反馈,经典的使用场景在于训练偏好模型,进而用于强化学习中的奖励信号,以指导模型学习更加有助于人类且无害的行为。
解决学术问题
HH-RLHF数据集解决了如何在模型训练过程中引入人类价值观和偏好,以及如何通过人类反馈减少模型可能产生的有害行为等学术研究问题。这对于构建符合道德和法律标准的人工智能模型具有深远的意义和影响。
衍生相关工作
基于HH-RLHF数据集,研究者可以进一步探索如何利用人类反馈优化AI模型的行为,衍生出了众多相关的工作。这些工作不仅涉及数据集本身的扩展和优化,还包括对模型训练策略和评估方法的改进。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录