nvidia/HelpSteer2
收藏HelpSteer2 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语
- 名称: HelpSteer2
- 大小: 10K < n < 100K
- 标签: human-feedback
数据集结构
- 特征:
prompt: 字符串类型response: 字符串类型helpfulness: 32位整数类型correctness: 32位整数类型coherence: 32位整数类型complexity: 32位整数类型verbosity: 32位整数类型
- 分割:
train: 20324 个样本validation: 1038 个样本
数据集描述
HelpSteer2 是一个开源的有用性数据集(CC-BY-4.0),旨在使模型更加有用、事实正确和连贯,同时可根据响应的复杂性和冗长性进行调整。
样本结构
每个样本包含一个提示(prompt)、一个响应(response)以及五个由人工标注的响应属性,每个属性评分范围为0到4,数值越高表示该属性越好。
属性说明
- Helpfulness: 响应对提示的整体有用性。
- Correctness: 包含所有相关事实且无错误。
- Coherence: 表达的一致性和清晰度。
- Complexity: 编写响应所需的智力深度(即响应是否可以由具有基本语言能力的人编写,或需要深入的领域专业知识)。
- Verbosity: 响应中包含的详细程度,相对于提示中要求的程度。
示例
json { "prompt": "c#", "response": "C# is a high-level, object-oriented programming language developed by Microsoft as part of its .NET initiative. It was created as a modern alternative to Java and supports a variety of programming paradigms, including imperative, functional, and event-driven. C# is primarily used for Windows application development, but it can also be used for web, mobile, and game development. The language is designed to be safe, secure, and efficient, and it provides developers with a rich set of libraries and tools for building robust and scalable applications. C# is also widely used in the game development industry, particularly in the development of games for the Xbox 360 and Xbox One consoles.", "helpfulness": 3, "correctness": 4, "coherence": 4, "complexity": 2, "verbosity": 1 }
使用方法
python from datasets import load_dataset
ds = load_dataset("nvidia/HelpSteer2")
train = ds[train] # len(train) = 20324 (95%) val = ds[validation] # len(val) = 1038 (5%)
来源
- 提示主要基于用户贡献的ShareGPT提示,以及一小部分(约5%)由Scale AI人工生成。
- 响应由早期版本的10种不同内部大型语言模型生成(注意:不包括来自OpenAI等专有LLM提供商的模型)。每个提示生成两个响应(每个来自不同的模型),使用采样技术以提供多样且合理的响应。
- 各种属性的标注由Scale AI完成。标注者对每个响应的每个属性(有用性、正确性、连贯性、复杂性和冗长性)在Likert 5级(0到4)上进行评分。
标注方法
- 通过Scale AI与一组精选的承包商合作。这些承包商提供了定义每个属性和每个评级级别标准的全面指南,以及一些标注示例。
- 标注过程涉及约1000名美国本土的人工标注者。候选人首先进行初步任务,包括英语水平评估,以确定其是否适合参与项目。随后,他们参加了关于任务的入门培训课程,该课程以标注35个样本响应的测试结束。
- 每个样本由至少三名标注者独立标注,如果初始标注者之间意见不一致(在有用性上相差2分或更少),则最多由五名标注者进行标注。最终标注(平均3.41名标注者)是通过取三名最一致的标注者的平均值,四舍五入到最接近的整数。
- 标注后,Scale AI进行了广泛的质量保证,每个标注至少经过两个人工审查和自动检查。从Scale AI收到标注后,我们进行了独立的质量保证,以确保标注质量符合我们的期望。因此,许多标注被过滤掉,仅保留了20,324个样本。
伦理声明
数据集的标注者通过Scale AI签约。Scale AI采用Anker方法论、GISC影响外包标准和联合国可持续发展目标,提供公平和有竞争力的薪酬。具体的薪酬根据多个因素计算,包括特定项目、所需的专业技能和专业知识、地区生活成本,并在Scale AI平台上透明列出。Scale AI还提供多个问题和支持渠道,包括24/7支持团队、社区讨论渠道和“发声”热线,承包商可以匿名报告关注点。
联系信息
- 电子邮件: Zhilin Wang
引用
如果您发现此数据集有用,请引用以下作品: bibtex @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={cs.CL} }




