H-D-T/HelpSteer2
收藏HelpSteer2 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语
- 名称: HelpSteer2
- 大小: 10K<n<100K
- 标签: human-feedback
数据集结构
特征
- prompt: 字符串类型
- response: 字符串类型
- helpfulness: 32位整数类型
- correctness: 32位整数类型
- coherence: 32位整数类型
- complexity: 32位整数类型
- verbosity: 32位整数类型
分割
- 训练集: 包含20324个样本
- 验证集: 包含1038个样本
数据集描述
HelpSteer2 是一个开源的有用性数据集(CC-BY-4.0),旨在使模型更加有用、事实正确和连贯,同时可根据响应的复杂性和冗长性进行调整。
样本结构
每个样本包含一个提示(prompt)、一个响应(response)以及五个由人工标注的响应属性,每个属性评分范围为0到4,评分越高表示该属性越好。
属性说明
- Helpfulness: 响应对提示的整体有用性。
- Correctness: 包含所有相关事实且无错误。
- Coherence: 表达的一致性和清晰度。
- Complexity: 编写响应所需的智力深度(即响应是否可以由具有基本语言能力的人编写,或需要深入的领域专业知识)。
- Verbosity: 响应中包含的细节量,相对于提示中要求的细节量。
示例
json { "prompt": "c#", "response": "C# is a high-level, object-oriented programming language developed by Microsoft as part of its .NET initiative. It was created as a modern alternative to Java and supports a variety of programming paradigms, including imperative, functional, and event-driven. C# is primarily used for Windows application development, but it can also be used for web, mobile, and game development. The language is designed to be safe, secure, and efficient, and it provides developers with a rich set of libraries and tools for building robust and scalable applications. C# is also widely used in the game development industry, particularly in the development of games for the Xbox 360 and Xbox One consoles.", "helpfulness": 3, "correctness": 4, "coherence": 4, "complexity": 2, "verbosity": 1 }
使用方法
python from datasets import load_dataset
ds = load_dataset("nvidia/HelpSteer2")
train = ds[train] # len(train) = 20324 (95%) val = ds[validation] # len(val) = 1038 (5%)
来源
- 提示主要基于用户贡献的ShareGPT提示,以及一小部分(约5%)由Scale AI人工生成。
- 响应由早期版本的10种不同内部大型语言模型生成(注意:不包括来自OpenAI等专有LLM提供商的模型)。每个提示生成两个响应(每个来自不同的模型),使用采样技术以提供多样且合理的响应。
- 各种属性的标注由Scale AI完成。标注者对每个响应在Likert 5级尺度(0到4)上对每个属性(有用性、正确性、连贯性、复杂性和冗长性)进行评分。
标注方法
- 通过Scale AI聘请了一组精选的承包商。这些承包商提供了定义每个属性和每个评级级别标准的全面指南,以及一些标注示例。
- 标注过程涉及约1000名美国本土的人工标注者。候选人首先接受初步任务,包括英语能力评估,以确定其是否符合项目要求。随后,他们参加了关于任务的入门培训课程,该课程以标注35个样本响应的测试结束。这一过程确保了对任务要求的彻底理解,并提供了高质量的标注。
- 每个样本由至少三名标注者独立标注,如果初始标注者之间没有足够的一致性(在有用性上相差2分或更少),则最多由五名标注者进行标注。最终标注(平均3.41名标注者)是通过取三名最一致的标注者的平均值,并四舍五入到最接近的整数获得的。
- 标注后,Scale AI进行了广泛的质量保证,每个标注至少经过两个人工审核和自动化检查。从Scale AI收到标注后,我们进行了独立的质量保证,以确保标注质量符合我们的期望。因此,许多标注被过滤掉,仅保留了20,324个样本。
伦理声明
数据集的标注者通过Scale AI签约。Scale AI采用Anker方法论、GISC影响外包标准和联合国可持续发展目标,提供公平和有竞争力的薪酬。具体薪酬根据多个因素计算,包括特定项目、所需的专业技能和专业知识、地区生活成本,并在Scale AI平台上透明列出。Scale AI还提供多个问题和支持渠道,包括24/7支持团队、与专门训练的版主的社区讨论渠道,以及一个匿名举报热线,承包商可以在此匿名报告关注事项。工人关注事项可以提交给我们的Remotasks支持团队审查,薪酬争议由支持专家审查。
联系
- 电子邮件: Zhilin Wang
引用
如果您发现此数据集有用,请引用以下作品: bibtex @misc{wang2024helpsteer2, title={HelpSteer2: Open-source dataset for training top-performing reward models}, author={Zhilin Wang and Yi Dong and Olivier Delalleau and Jiaqi Zeng and Gerald Shen and Daniel Egert and Jimmy J. Zhang and Makesh Narsimhan Sreedhar and Oleksii Kuchaiev}, year={2024}, eprint={2406.08673}, archivePrefix={arXiv}, primaryClass={cs.CL} }




