Anthropic/hh-rlhf

hugging_face2023-05-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Anthropic/hh-rlhf

下载链接

链接失效反馈

资源简介：

该数据集包含两种类型的数据：1) 关于帮助性和无害性的人类偏好数据，这些数据用于训练偏好模型或奖励模型，以便后续的RLHF训练；2) 人类生成和注释的红队对话数据，这些数据用于理解众包工作者如何红队模型以及哪些类型的红队攻击是成功的。数据集可能包含令人不适的内容，如歧视性语言、虐待、暴力、自残、剥削等话题，因此仅建议在个人风险承受范围内使用。数据集的目的是用于研究，特别是减少模型危害的研究。数据集的格式包括JSONL文件，其中包含对话记录、无害性评分、模型参数数量、模型类型、红队成员评分等字段。

提供机构：

Anthropic

原始信息汇总

数据集卡片 for HH-RLHF

数据集概述

本仓库提供两种不同类型的数据：

关于帮助性和无害性的人类偏好数据，来自论文《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》。这些数据旨在用于后续RLHF训练的偏好（或奖励）模型训练，不适用于对话代理的监督训练。
来自《Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned》的人类生成和注释的红队对话数据。这些数据旨在理解人群工作者如何红队模型以及哪些类型的红队攻击是成功的或不成功的，不适用于微调或偏好建模。

免责声明：数据（尤其是无害性偏好数据和红队数据）包含可能令人反感或不安的内容。主题包括但不限于歧视性语言和关于虐待、暴力、自残、剥削和其他可能令人不安的主题的讨论。请仅根据您个人的风险承受能力与数据互动。数据旨在用于研究目的，特别是可以减少模型危害的研究。数据中的观点不代表Anthropic或其员工的观点。

关于帮助性和无害性的人类偏好数据（PM数据）

数据格式非常简单，每个jsonl文件的每一行包含一对文本，一个是“chosen”，另一个是“rejected”。

帮助性：数据分为三个部分：基础模型（上下文蒸馏的52B语言模型）、拒绝抽样（主要使用best-of-16抽样）和迭代“在线”过程的抽样数据。
无害性：数据仅从基础模型收集，格式相同。

数据收集过程和人群工作者群体的详细信息可在论文的第2节和附录D中找到。

红队数据（非PM数据）

每个jsonl文件的每一行包含一个字典，字段包括：

transcript：人类对手（红队成员）和AI助手之间的对话记录。
min_harmlessness_score_transcript：AI助手的无害性得分（越低越有害）。
num_params：驱动AI助手的语言模型的参数数量。
model_type：驱动AI助手的模型类型。
rating：红队成员对成功破坏AI助手的评级（Likert量表，越高越成功）。
task_description：红队成员关于如何尝试红队AI助手的简短描述。
task_description_harmlessness_score：任务描述的无害性得分（越低越有害）。
red_team_member_id：红队成员的任意标识符。
is_upworker：红队成员是否来自Upwork平台的二进制指示符。
tags：每个对话记录的最多6个标签，描述红队尝试。

数据和数据收集程序的详细信息可在论文的附录中的Datasheet中找到。

使用方法

每个数据集位于单独的子目录中。加载单个子集的方法如下：

python from datasets import load_dataset

加载所有帮助性/无害性子集（共享相同的模式）

dataset = load_dataset("Anthropic/hh-rlhf")

加载其中一个无害性子集

dataset = load_dataset("Anthropic/hh-rlhf", data_dir="harmless-base")

加载红队子集

dataset = load_dataset("Anthropic/hh-rlhf", data_dir="red-team-attempts")

AI搜集汇总

数据集介绍

构建方式

HH-RLHF数据集的构建基于人类反馈强化学习原理，旨在通过人类偏好的数据训练出有助于无害的助手。该数据集包含两部分：一部分是人类对助手的帮助性和无害性的偏好数据，另一部分是红队对话数据。帮助性数据通过三轮迭代收集，包括基础模型、拒绝采样和在线过程采样。而无害性数据则仅针对基础模型进行收集。红队对话数据则是由人类对抗者与AI助手的对话记录构成，旨在理解成功的红队尝试是什么样子的。

特点

HH-RLHF数据集的特点在于其独特的构建目的和内容。它不是用于监督训练对话代理，而是用于训练偏好模型和红队对抗模型。数据集中的内容包含可能具有攻击性或令人不适的话题，因此仅供研究使用，特别是那些能够使模型变得不那么有害的研究。数据集的每一行都是JSON格式，包含对话记录、AI助手的无害性评分、模型参数数量、模型类型、红队成员的评分等信息。

使用方法

使用HH-RLHF数据集时，研究者可以通过`load_dataset()`函数加载不同子目录下的数据集。帮助性和无害性子集共享相同的模式，而红队尝试子集则单独加载。加载时，需要指定`data_dir`参数以选择正确的子集。使用数据集进行研究时，应遵循个人风险承受能力，并确保数据的合理使用。

背景与挑战

背景概述

Anthropic/hh-rlhf数据集，由Anthropic公司的研究团队于2022年开发，旨在通过人类反馈的强化学习训练出既有帮助又无害的助手。该数据集的核心研究问题是提高人工智能模型在交互中的安全性和有用性，对人工智能领域的发展具有重要的推动作用。数据集包含了人类对帮助性和无害性的偏好数据，以及人类生成的对抗性对话数据，这些数据为研究如何减少模型危害提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临的挑战主要包括如何准确收集和标注人类偏好数据，以及如何有效利用对抗性对话数据进行模型的安全性评估。此外，数据集中包含的敏感和令人不适内容也带来了数据使用的伦理挑战。研究者在使用这些数据时，必须谨慎处理，以确保研究目的符合伦理标准，避免加剧模型的危害性。

常用场景

经典使用场景

在机器学习领域，尤其是自然语言处理中，HH-RLHF数据集的应用显得尤为重要。该数据集通过提供人类偏好的反馈，经典的使用场景在于训练偏好模型，进而用于强化学习中的奖励信号，以指导模型学习更加有助于人类且无害的行为。

解决学术问题

HH-RLHF数据集解决了如何在模型训练过程中引入人类价值观和偏好，以及如何通过人类反馈减少模型可能产生的有害行为等学术研究问题。这对于构建符合道德和法律标准的人工智能模型具有深远的意义和影响。

衍生相关工作

基于HH-RLHF数据集，研究者可以进一步探索如何利用人类反馈优化AI模型的行为，衍生出了众多相关的工作。这些工作不仅涉及数据集本身的扩展和优化，还包括对模型训练策略和评估方法的改进。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

DAT

DAT是一个统一的跨场景跨领域基准，用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景，以评估算法的跨场景和跨领域泛化能力，并具有高保真度的现实机器人动力学建模。

github 收录