polinaeterna/hh-rlhf
收藏Hugging Face2023-09-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/polinaeterna/hh-rlhf
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了两种类型的数据:1. 关于助手帮助性和无害性的人类偏好数据,用于训练偏好或奖励模型,以支持后续的强化学习从人类反馈中学习(RLHF)训练;2. 人类生成和注释的红色团队对话数据,用于理解众包工作者如何对模型进行红色团队测试以及哪些类型的红色团队攻击是成功的。数据集包含可能令人不适的内容,如歧视性语言和讨论虐待、暴力、自残、剥削等主题,仅建议用于研究目的,特别是减少模型危害的研究。
This dataset provides two categories of data: 1. Human preference data regarding the helpfulness and harmlessness of the assistant, which is used to train preference or reward models to support subsequent Reinforcement Learning from Human Feedback (RLHF) training; 2. Human-generated and annotated red-teaming conversation data, aimed at understanding how crowdworkers conduct red team testing on models and which types of red teaming attacks are successful. This dataset contains potentially distressing content, including discriminatory language and discussions of topics such as abuse, violence, self-harm, exploitation, etc., and is intended solely for research purposes, particularly research focused on mitigating model harm.
提供机构:
polinaeterna
原始信息汇总
数据集卡片 HH-RLHF
数据集概述
该数据集包含两类数据:
- 关于帮助性和无害性的人类偏好数据,来自论文《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》。这些数据用于训练偏好(或奖励)模型,不适用于对话代理的监督训练。
- 人类生成和标注的红队对话数据,来自论文《Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned》。这些数据用于理解红队成员如何对模型进行红队测试,以及哪些类型的红队攻击是成功的。这些数据不适用于微调或偏好建模。
免责声明:数据(尤其是无害性偏好数据和红队数据)可能包含令人不快或冒犯性的内容。主题包括但不限于歧视性语言和滥用、暴力、自残、剥削等可能令人不快的主题。请根据个人风险承受能力与数据互动。数据旨在用于研究目的,特别是减少模型危害的研究。数据中的观点不代表Anthropic或其员工的观点。
人类偏好数据关于帮助性和无害性(PM Data)
数据格式非常简单,每个jsonl文件的每一行包含一对文本,一个是“chosen”,另一个是“rejected”。
- 帮助性:数据分为训练/测试集,分为三个部分:基础模型(上下文蒸馏的52B语言模型)、通过拒绝采样(主要是16选1采样)对早期偏好模型进行采样,以及在迭代“在线”过程中采样的数据集。
- 无害性:数据仅为基础模型收集,格式相同。
数据收集过程和众包工作者群体的详细信息见论文第2节和附录D。
红队数据(非PM Data)
每个jsonl文件的每一行包含一个字典,字段包括:
transcript:人类对手(红队成员)和AI助手之间的对话文本记录min_harmlessness_score_transcript:AI助手的无害性得分(越低越有害)num_params:驱动AI助手的语言模型的参数数量model_type:驱动AI助手的模型类型rating:红队成员对成功破坏AI助手的评级(Likert量表,越高越成功)task_description:红队成员关于如何尝试红队AI助手的简短文本描述task_description_harmlessness_score:任务描述的无害性得分(越低越有害)red_team_member_id:红队成员的任意标识符is_upworker:红队成员是否来自Upwork平台的二进制指示符tags:每个对话记录最多6个标签,描述红队尝试的简短描述
使用方法
每个数据子集位于单独的子目录中。加载单个子集的方法如下:
python from datasets import load_dataset
加载所有帮助性/无害性子集
dataset = load_dataset("Anthropic/hh-rlhf")
加载其中一个无害性子集
dataset = load_dataset("Anthropic/hh-rlhf", data_dir="harmless-base")
加载红队子集
dataset = load_dataset("Anthropic/hh-rlhf", data_dir="red-team-attempts")
搜集汇总
数据集介绍

构建方式
在人工智能对齐研究领域,构建高质量的人类反馈数据至关重要。HH-RLHF数据集的构建过程严谨而系统,其核心数据来源于大规模的人类偏好标注工作。针对有益性(helpfulness)数据,研究团队从基础模型生成响应开始,通过拒绝采样和迭代在线流程,持续收集人类对多个模型输出响应的偏好选择,形成“被采纳”与“被拒绝”的成对文本。对于无害性(harmlessness)数据,则主要围绕基础模型展开类似的偏好标注。此外,数据集还包含了专门的红队测试数据,通过招募众包工作者主动尝试诱导模型产生有害输出,并完整记录对话过程与人工标注的评估结果,从而构建出用于分析模型脆弱性的对话转录文本。
特点
该数据集在人工智能安全研究领域具有鲜明的特色。其首要特征在于严格区分了两种不同用途的数据子集:用于训练偏好模型的人类偏好数据,以及用于理解模型脆弱性的红队测试对话数据。偏好数据以简洁的“采纳-拒绝”对比格式呈现,覆盖了有益性和无害性两个关键维度,并细分为基础模型、拒绝采样和在线流程等多个数据批次。红队数据则提供了丰富的元信息,包括对话全文、基于偏好模型的无害性评分、红队成员的成功率自评、攻击策略描述以及人工标注的标签,为深入分析攻击模式与模型缺陷提供了多维视角。数据集设计明确排除了直接用于监督微调对话代理的用途,强调了其在安全对齐研究中的专用性。
使用方法
为便于研究人员使用,该数据集在Hugging Face平台上提供了清晰的加载接口。用户可通过`datasets`库的`load_dataset`函数进行访问。若需加载全部有益性与无害性子集,可直接指定数据集名称;若希望针对特定研究目标加载单一子集,例如仅使用基础模型的无害性偏好数据,则需通过`data_dir`参数指明对应的子目录名称,如“harmless-base”。对于红队测试数据的加载,同样需指定`data_dir`为“red-team-attempts”。这种模块化的设计允许研究者根据具体实验需求,灵活选取相应的数据子集,从而高效地开展偏好模型训练或红队行为分析等研究工作。
背景与挑战
背景概述
在人工智能对齐研究领域,确保大型语言模型生成既具帮助性又无害的内容,是推动技术安全落地的核心议题。由Anthropic研究团队于2022年创建的HH-RLHF数据集,正是针对这一关键问题而设计。该数据集源自《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》等开创性研究,旨在通过人类反馈强化学习(RLHF)范式,为训练偏好模型提供高质量的人类偏好数据。其不仅涵盖了模型在帮助性与无害性两个维度的成对比较数据,还包含了详尽的红队测试对话记录,为深入理解模型的安全边界与脆弱性提供了宝贵资源,对后续的AI安全与对齐研究产生了深远影响。
当前挑战
该数据集致力于解决的核心挑战是,如何系统性地引导和评估语言模型,使其输出在保持高度帮助性的同时,严格避免产生有害、偏见或冒犯性内容。这一领域问题的复杂性在于,有害性的定义具有主观性和文化依赖性,且模型可能在追求帮助性时无意中跨越安全边界。在数据集构建过程中,研究者们面临多重具体挑战:首先,收集高质量、规模化的人类偏好标注需要精心设计任务流程并管理庞大的众包工作者群体,以确保数据的一致性与可靠性;其次,红队测试数据的生成要求模拟真实的对抗性交互,其过程设计、伦理审查以及对敏感内容的处理均需极为审慎;最后,如何清晰界定数据用途,防止其被误用于训练可能产生有害行为的对话模型,也是构建过程中必须严格把控的环节。
常用场景
经典使用场景
在人工智能对齐研究领域,HH-RLHF数据集为基于人类反馈的强化学习(RLHF)提供了核心训练素材。该数据集通过收集人类对助手回复在帮助性和无害性方面的偏好标注,构建了成对的“被选择”与“被拒绝”文本,专门用于训练偏好模型或奖励模型,以指导后续的强化学习微调过程,旨在塑造语言模型的行为,使其更符合人类价值观。
实际应用
在实际部署中,基于HH-RLHF训练的偏好模型被集成到AI助手的开发管线中,用于实时评估和筛选模型生成的内容。例如,在构建对话系统或内容生成平台时,此类模型可作为安全过滤器,自动降低具有冒犯性、偏见性或危险性的输出概率,从而提升产品的可靠性和用户体验,服务于需要高信任度的应用场景,如在线客服、教育辅导和信息咨询。
衍生相关工作
该数据集催生了一系列围绕AI安全与对齐的经典研究工作。其直接支撑了Anthropic公司关于RLHF和红队测试的原始论文,并为后续开源社区(如DeepSeek、OpenAssistant等)构建类似偏好数据集提供了范本。此外,它启发了对偏好模型架构、稳健奖励函数设计以及更高效的红队攻击模拟方法的研究,成为评估和提升模型安全性的基准工具之一。
以上内容由遇见数据集搜集并总结生成



