H-D-T/HelpSteer2

Name: H-D-T/HelpSteer2
Creator: H-D-T
Published: 2024-06-21 06:35:04
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/H-D-T/HelpSteer2

下载链接

链接失效反馈

官方服务：

资源简介：

HelpSteer2是一个开源的帮助性数据集（CC-BY-4.0），用于训练奖励模型，以使模型在帮助性、事实正确性和连贯性方面更加优秀，同时能够调整响应的复杂性和详细性。数据集包含21,362个样本，每个样本包含一个提示、一个响应以及五个由人类注释的属性（帮助性、正确性、连贯性、复杂性和详细性），每个属性的评分范围为0到4，分数越高表示越好。数据集分为训练集和验证集，分别包含20,324和1,038个样本。注释过程由Scale AI进行，确保了高质量的数据标注。

提供机构：

H-D-T

原始信息汇总

HelpSteer2 数据集概述

基本信息

许可证: CC-BY-4.0
语言: 英语
名称: HelpSteer2
大小: 10K<n<100K
标签: human-feedback

数据集结构

特征

prompt: 字符串类型
response: 字符串类型
helpfulness: 32位整数类型
correctness: 32位整数类型
coherence: 32位整数类型
complexity: 32位整数类型
verbosity: 32位整数类型

分割

训练集: 包含20324个样本
验证集: 包含1038个样本

数据集描述

HelpSteer2 是一个开源的有用性数据集（CC-BY-4.0），旨在使模型更加有用、事实正确和连贯，同时可根据响应的复杂性和冗长性进行调整。

样本结构

每个样本包含一个提示（prompt）、一个响应（response）以及五个由人工标注的响应属性，每个属性评分范围为0到4，评分越高表示该属性越好。

属性说明

Helpfulness: 响应对提示的整体有用性。
Correctness: 包含所有相关事实且无错误。
Coherence: 表达的一致性和清晰度。
Complexity: 编写响应所需的智力深度（即响应是否可以由具有基本语言能力的人编写，或需要深入的领域专业知识）。
Verbosity: 响应中包含的细节量，相对于提示中要求的细节量。

示例

json { "prompt": "c#", "response": "C# is a high-level, object-oriented programming language developed by Microsoft as part of its .NET initiative. It was created as a modern alternative to Java and supports a variety of programming paradigms, including imperative, functional, and event-driven. C# is primarily used for Windows application development, but it can also be used for web, mobile, and game development. The language is designed to be safe, secure, and efficient, and it provides developers with a rich set of libraries and tools for building robust and scalable applications. C# is also widely used in the game development industry, particularly in the development of games for the Xbox 360 and Xbox One consoles.", "helpfulness": 3, "correctness": 4, "coherence": 4, "complexity": 2, "verbosity": 1 }

使用方法

python from datasets import load_dataset

ds = load_dataset("nvidia/HelpSteer2")

train = ds[train] # len(train) = 20324 (95%) val = ds[validation] # len(val) = 1038 (5%)

来源

提示主要基于用户贡献的ShareGPT提示，以及一小部分（约5%）由Scale AI人工生成。
响应由早期版本的10种不同内部大型语言模型生成（注意：不包括来自OpenAI等专有LLM提供商的模型）。每个提示生成两个响应（每个来自不同的模型），使用采样技术以提供多样且合理的响应。
各种属性的标注由Scale AI完成。标注者对每个响应在Likert 5级尺度（0到4）上对每个属性（有用性、正确性、连贯性、复杂性和冗长性）进行评分。

标注方法

通过Scale AI聘请了一组精选的承包商。这些承包商提供了定义每个属性和每个评级级别标准的全面指南，以及一些标注示例。
标注过程涉及约1000名美国本土的人工标注者。候选人首先接受初步任务，包括英语能力评估，以确定其是否符合项目要求。随后，他们参加了关于任务的入门培训课程，该课程以标注35个样本响应的测试结束。这一过程确保了对任务要求的彻底理解，并提供了高质量的标注。
每个样本由至少三名标注者独立标注，如果初始标注者之间没有足够的一致性（在有用性上相差2分或更少），则最多由五名标注者进行标注。最终标注（平均3.41名标注者）是通过取三名最一致的标注者的平均值，并四舍五入到最接近的整数获得的。
标注后，Scale AI进行了广泛的质量保证，每个标注至少经过两个人工审核和自动化检查。从Scale AI收到标注后，我们进行了独立的质量保证，以确保标注质量符合我们的期望。因此，许多标注被过滤掉，仅保留了20,324个样本。

伦理声明

数据集的标注者通过Scale AI签约。Scale AI采用Anker方法论、GISC影响外包标准和联合国可持续发展目标，提供公平和有竞争力的薪酬。具体薪酬根据多个因素计算，包括特定项目、所需的专业技能和专业知识、地区生活成本，并在Scale AI平台上透明列出。Scale AI还提供多个问题和支持渠道，包括24/7支持团队、与专门训练的版主的社区讨论渠道，以及一个匿名举报热线，承包商可以在此匿名报告关注事项。工人关注事项可以提交给我们的Remotasks支持团队审查，薪酬争议由支持专家审查。

联系

电子邮件: Zhilin Wang

引用

如果您发现此数据集有用，请引用以下作品： bibtex @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

HelpSteer2 数据集旨在服务于大语言模型的对齐与奖励模型训练，其构建过程严谨且系统化。数据集的提示（prompt）主要源自用户贡献的 ShareGPT 对话记录，并辅以约 5% 由 Scale AI 人工生成的内容。针对每个提示，研究团队利用早期版本的十种不同内部大语言模型（非专有模型如 OpenAI），通过采样技术生成两个多样且合理的回答。随后，Scale AI 组织约 1000 名美国本土标注员，依据详尽的指导准则，对每个回答在五个维度（帮助性、正确性、连贯性、复杂性和详尽性）上进行 0 到 4 分的李克特五点量表评分。每份样本至少由三名标注员独立标注，若初始标注员在帮助性维度上分歧较大（得分差 ≥2），则增加至最多五名标注员，最终取一致性最高的三名标注员评分的均值并四舍五入为整数。经过 Scale AI 和 NVIDIA 团队的双重质量审核与过滤，最终保留 20,324 个高质量样本作为训练集，1,038 个样本作为验证集。

特点

该数据集的核心特点在于其多维度、细粒度的标注体系，超越了传统二元偏好标注的局限。每个回答都附有五个 0-4 的整数评分，分别对应帮助性、正确性、连贯性、复杂性和详尽性，这使得模型能够在多个品质维度上进行精细调优。约 29% 的提示为多轮对话场景，其结构设计保留了历史对话上下文，使奖励模型能理解交互的动态性。数据集采用宽松的 CC-BY-4.0 许可协议，完全开源，基于此数据集训练的 Llama3-70B-SteerLM-RM 模型在 RewardBench 上取得了 88.8% 的优异成绩，位列当时开源许可数据模型之首。此外，数据集的构建注重标注质量，通过多轮标注一致性筛选和多重质量保证流程，确保了标注的可靠性与一致性。

使用方法

使用 HelpSteer2 数据集便捷高效。用户可通过 Hugging Face 的 datasets 库直接加载：首先导入 load_dataset 函数，然后调用 load_dataset('nvidia/HelpSteer2') 即可获取包含 'train' 和 'validation' 两个分片的数据集对象。训练集包含 20,324 个样本，验证集包含 1,038 个样本。每个样本包含 'prompt'（提示）、'response'（回答）以及五个属性字段。由于相邻样本（如样本 1 和 2）共享相同的提示，因此可基于帮助性分数构建偏好对，用于训练 DPO（直接偏好优化）或偏好奖励模型。对于多轮对话场景，提示字段中嵌入了特殊标记 <extra_id_1>Assistant 和 <extra_id_1>User 来区分角色轮次，使用前需根据具体训练框架调整解析逻辑。用户也可参考 NVIDIA 提供的 NeMo Aligner 工具和 SteerLM 训练指南，利用该数据集训练回归型奖励模型。

背景与挑战

背景概述

HelpSteer2是由NVIDIA与Scale AI合作，于2024年发布的一个开源人类反馈数据集，旨在提升奖励模型的性能，进而优化大型语言模型的对齐效果。该数据集由Zhilin Wang等研究人员主导，核心研究问题是如何通过细粒度的多维属性标注，使模型在有用性、事实正确性、连贯性、复杂度和详尽度等方面实现可调控的对齐。基于Llama 3 70B基座模型训练的奖励模型在RewardBench上取得了88.8%的得分，位列第四，证明了该数据集在推动开源奖励模型发展方面的重要影响力。作为HelpSteer的升级版本，HelpSteer2提供了更加丰富和高质量的标注数据，为语言模型的对齐研究提供了关键资源。

当前挑战

HelpSteer2所解决的领域挑战在于，传统奖励模型训练多依赖粗粒度的整体偏好评分，难以捕捉模型输出在多个维度上的细微差异，导致对齐效果不够精准。该数据集通过引入有用性、正确性、连贯性、复杂度和详尽度五个细粒度属性，使模型能够进行更精细化的调控。在构建过程中，挑战主要体现在数据质量保障上：标注者需在严格培训后对每个样本进行独立评分，并采用多轮一致性校验，确保评分可靠性；同时，数据来源涉及ShareGPT用户提交的提示词和多种内部语言模型生成的回复，需平衡多样性与合理性，最终经过严格筛选仅保留约2万条高质量样本，以保证标注的一致性和准确性。

常用场景

经典使用场景

在自然语言处理与人工智能对齐研究的前沿领域，HelpSteer2数据集被广泛用于训练奖励模型，以指导大语言模型生成更符合人类偏好的回复。该数据集包含超过两万条精心标注的样本，每条样本均涵盖提示文本、对应回复以及五个关键维度的评分——帮助性、正确性、连贯性、复杂度和冗长度。研究者可基于这些多维度的细粒度评分，构建回归式奖励模型或偏好对，从而通过强化学习或直接偏好优化等方法对模型进行微调。其经典使用场景在于通过SteerLM框架训练回归奖励模型，最终在RewardBench基准上取得88.8%的领先成绩，成为该领域最具代表性的开源数据之一。

衍生相关工作

HelpSteer2衍生了一系列具有影响力的学术工作。其直接成果是基于Llama 3 70B基础模型训练的Llama3-70B-SteerLM-RM奖励模型，该模型在RewardBench上位列第四，验证了高质量开源数据在奖励模型训练中的巨大潜力。此外，NVIDIA推出的Nemotron-4-340B-RM模型同样受益于HelpSteer2的数据支持，以92.0%的整体得分登顶RewardBench排行榜，展示了该数据集在扩展至更大规模模型时的有效性。在方法论层面，SteerLM训练框架因该数据集的发布而得到广泛关注，后续研究如ArmoRM等进一步探索了利用GPT-4生成数据与HelpSteer2结合的可能性，推动了奖励模型在安全性与推理能力上的协同提升。

数据集最近研究