nvidia/HelpSteer2

Name: nvidia/HelpSteer2
Creator: nvidia
Published: 2024-06-17 17:22:00
License: 暂无描述

Hugging Face2024-06-17 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/nvidia/HelpSteer2

下载链接

链接失效反馈

官方服务：

资源简介：

HelpSteer2是一个开源的有用性数据集（CC-BY-4.0），旨在通过人类反馈来训练奖励模型，使其在帮助性、事实正确性、连贯性、复杂性和详细程度方面表现更好。数据集包含21,362个样本，每个样本包含一个提示、一个响应以及五个由人类注释的属性评分（帮助性、正确性、连贯性、复杂性和详细程度），每个属性的评分范围为0到4，分数越高表示越好。数据集中的提示和响应主要来自用户贡献的ShareGPT提示和Scale AI生成的内容，响应由10种不同的内部LLM生成，并由Scale AI的注释者进行评分。数据集的使用示例和加载方法也在README中提供。

HelpSteer2 is an open-source Helpfulness Dataset (CC-BY-4.0) that supports aligning models to become more helpful, factually correct and coherent, while being adjustable in terms of the complexity and verbosity of its responses. The dataset contains 21,362 samples, each containing a prompt, a response, and five human-annotated attributes (helpfulness, correctness, coherence, complexity, and verbosity), each ranging between 0 and 4 where higher means better. The prompts and responses are primarily collected from user-contributed ShareGPT prompts and a small proportion generated by Scale AI. The responses are generated by a mix of 10 different in-house LLMs and annotated by Scale AI. Examples and loading methods for the dataset are also provided in the README.

提供机构：

nvidia

原始信息汇总

HelpSteer2 数据集概述

基本信息

许可证: CC-BY-4.0
语言: 英语
名称: HelpSteer2
大小: 10K < n < 100K
标签: human-feedback

数据集结构

特征:
- prompt: 字符串类型
- response: 字符串类型
- helpfulness: 32位整数类型
- correctness: 32位整数类型
- coherence: 32位整数类型
- complexity: 32位整数类型
- verbosity: 32位整数类型
分割:
- train: 20324 个样本
- validation: 1038 个样本

数据集描述

HelpSteer2 是一个开源的有用性数据集（CC-BY-4.0），旨在使模型更加有用、事实正确和连贯，同时可根据响应的复杂性和冗长性进行调整。

样本结构

每个样本包含一个提示（prompt）、一个响应（response）以及五个由人工标注的响应属性，每个属性评分范围为0到4，数值越高表示该属性越好。

属性说明

Helpfulness: 响应对提示的整体有用性。
Correctness: 包含所有相关事实且无错误。
Coherence: 表达的一致性和清晰度。
Complexity: 编写响应所需的智力深度（即响应是否可以由具有基本语言能力的人编写，或需要深入的领域专业知识）。
Verbosity: 响应中包含的详细程度，相对于提示中要求的程度。

示例

json { "prompt": "c#", "response": "C# is a high-level, object-oriented programming language developed by Microsoft as part of its .NET initiative. It was created as a modern alternative to Java and supports a variety of programming paradigms, including imperative, functional, and event-driven. C# is primarily used for Windows application development, but it can also be used for web, mobile, and game development. The language is designed to be safe, secure, and efficient, and it provides developers with a rich set of libraries and tools for building robust and scalable applications. C# is also widely used in the game development industry, particularly in the development of games for the Xbox 360 and Xbox One consoles.", "helpfulness": 3, "correctness": 4, "coherence": 4, "complexity": 2, "verbosity": 1 }

使用方法

python from datasets import load_dataset

ds = load_dataset("nvidia/HelpSteer2")

train = ds[train] # len(train) = 20324 (95%) val = ds[validation] # len(val) = 1038 (5%)

来源

提示主要基于用户贡献的ShareGPT提示，以及一小部分（约5%）由Scale AI人工生成。
响应由早期版本的10种不同内部大型语言模型生成（注意：不包括来自OpenAI等专有LLM提供商的模型）。每个提示生成两个响应（每个来自不同的模型），使用采样技术以提供多样且合理的响应。
各种属性的标注由Scale AI完成。标注者对每个响应的每个属性（有用性、正确性、连贯性、复杂性和冗长性）在Likert 5级（0到4）上进行评分。

标注方法

通过Scale AI与一组精选的承包商合作。这些承包商提供了定义每个属性和每个评级级别标准的全面指南，以及一些标注示例。
标注过程涉及约1000名美国本土的人工标注者。候选人首先进行初步任务，包括英语水平评估，以确定其是否适合参与项目。随后，他们参加了关于任务的入门培训课程，该课程以标注35个样本响应的测试结束。
每个样本由至少三名标注者独立标注，如果初始标注者之间意见不一致（在有用性上相差2分或更少），则最多由五名标注者进行标注。最终标注（平均3.41名标注者）是通过取三名最一致的标注者的平均值，四舍五入到最接近的整数。
标注后，Scale AI进行了广泛的质量保证，每个标注至少经过两个人工审查和自动检查。从Scale AI收到标注后，我们进行了独立的质量保证，以确保标注质量符合我们的期望。因此，许多标注被过滤掉，仅保留了20,324个样本。

伦理声明

数据集的标注者通过Scale AI签约。Scale AI采用Anker方法论、GISC影响外包标准和联合国可持续发展目标，提供公平和有竞争力的薪酬。具体的薪酬根据多个因素计算，包括特定项目、所需的专业技能和专业知识、地区生活成本，并在Scale AI平台上透明列出。Scale AI还提供多个问题和支持渠道，包括24/7支持团队、社区讨论渠道和“发声”热线，承包商可以匿名报告关注点。

联系信息

电子邮件: Zhilin Wang

引用

如果您发现此数据集有用，请引用以下作品： bibtex @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

HelpSteer2数据集是一个开源的有用性数据集，旨在通过人类反馈来优化模型的帮助性、事实准确性和连贯性。该数据集由NVIDIA与Scale AI合作构建，包含21,362个样本，每个样本包含一个提示、一个响应以及五个由人类标注的属性评分。这些属性包括帮助性、正确性、连贯性、复杂性和冗长性，评分范围从0到4。数据集中的连续样本共享相同的提示，便于进行基于帮助性评分的偏好对训练。此外，约29%的提示为多轮对话，提示部分包含所有用户轮次和除最后一个助手轮次外的所有助手轮次，响应字段则包含最后一个助手轮次。

特点

HelpSteer2数据集的特点在于其丰富的人类标注属性和多轮对话结构。每个响应都经过五个维度的评分，帮助模型在多个方面进行优化。数据集中的多轮对话结构使得模型能够更好地理解上下文，并在复杂的对话场景中生成更连贯的响应。此外，数据集还提供了偏好注释，允许用户进行Bradley-Terry建模，进一步优化模型的偏好学习能力。这些特点使得HelpSteer2成为训练高性能奖励模型的理想选择。

使用方法

使用HelpSteer2数据集时，可以通过Hugging Face的`datasets`库轻松加载数据。用户可以使用该数据集训练奖励模型，特别是通过偏好对进行强化学习（如REINFORCE）。数据集中的多轮对话结构可以用于训练SteerLM回归奖励模型，而偏好注释则可用于Bradley-Terry建模。此外，数据集还提供了未处理的偏好注释和个体标注，支持用户进行更深入的分析和研究。通过这些方法，用户可以充分利用HelpSteer2数据集来优化模型的帮助性和偏好学习能力。

背景与挑战

背景概述

HelpSteer2是由NVIDIA与Scale AI合作开发的开源数据集，旨在通过人类反馈来训练高性能的奖励模型，以提升模型的帮助性、事实准确性和连贯性。该数据集于2024年发布，是HelpSteer数据集的后续版本，包含了21,362个样本，每个样本包含一个提示、一个响应以及五个由人类标注的属性评分。这些属性包括帮助性、正确性、连贯性、复杂性和冗长性。通过使用该数据集，研究人员能够训练出在RewardBench等基准测试中表现优异的奖励模型，如Llama-3.1-Nemotron-70B-Reward模型，其在RewardBench上的得分达到了94.1%。该数据集的发布为自然语言处理领域中的模型对齐和强化学习提供了重要的数据支持。

当前挑战

HelpSteer2数据集在构建和应用过程中面临多重挑战。首先，数据集的标注过程依赖于人类反馈，如何确保标注的一致性和准确性是一个关键问题，尤其是在多轮对话场景中，标注者需要评估复杂的上下文信息。其次，尽管该数据集在RewardBench等基准测试中表现出色，但在Chat-Hard类别中，其表现相对较弱，尤其是在使用GPT-4作为标注基准时，与包含GPT-4生成数据的模型相比，差距显著。这表明模型在捕捉GPT-4偏好方面存在不足。此外，数据集的构建需要处理大量的多轮对话数据，如何有效地组织和标注这些数据也是一个技术挑战。最后，尽管数据集提供了详细的偏好标注，但在实际应用中，如何利用这些标注进行有效的模型训练和优化仍然是一个开放的研究问题。

常用场景

经典使用场景

HelpSteer2数据集在自然语言处理领域中被广泛用于训练和优化奖励模型，特别是在强化学习与人类反馈（RLHF）的应用中。通过提供大量带有详细人类标注的对话样本，该数据集能够帮助模型更好地理解并生成符合人类期望的响应。其经典使用场景包括训练Llama-3.1-70B-Instruct模型，使其在多个自动对齐基准测试中表现优异，如AlpacaEval 2 LC和Arena Hard。

解决学术问题

HelpSteer2数据集解决了自然语言处理领域中的多个关键学术问题，尤其是在模型对齐和奖励模型训练方面。通过提供高质量的人类反馈数据，该数据集帮助研究人员更好地理解如何使模型生成更符合人类期望的响应，同时保持事实正确性和连贯性。其标注的五个关键属性（帮助性、正确性、连贯性、复杂性和详细程度）为模型优化提供了多维度的评估标准，推动了模型对齐技术的发展。

衍生相关工作

HelpSteer2数据集衍生了许多相关的研究工作，特别是在奖励模型和模型对齐领域。基于该数据集，研究人员开发了Llama-3.1-Nemotron-70B-Reward模型，该模型在RewardBench等多个基准测试中表现优异。此外，该数据集还推动了NeMo Aligner等开源工具的发展，进一步促进了强化学习与人类反馈（RLHF）技术的进步。这些工作不仅提升了模型的性能，还为未来的研究提供了宝贵的数据和工具支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集