nvidia/HelpSteer
收藏HelpSteer: Helpfulness SteerLM Dataset
数据集描述
HelpSteer 是一个开源的帮助性数据集(CC-BY-4.0),旨在支持模型变得更加有用、事实准确和连贯,同时可以根据响应的复杂性和冗长性进行调整。
数据集特征
- 名称: Helpfulness SteerLM Dataset
- 语言: 英语
- 大小类别: 10K<n<100K
- 标签: human-feedback
数据集信息
- 特征:
- prompt: 字符串
- response: 字符串
- helpfulness: 整数 (int32)
- correctness: 整数 (int32)
- coherence: 整数 (int32)
- complexity: 整数 (int32)
- verbosity: 整数 (int32)
- 分割:
- train: 35331 个样本
- validation: 1789 个样本
数据集内容
HelpSteer 包含 37,120 个样本,每个样本包含一个提示、一个响应以及五个由人工标注的响应属性,每个属性在 0 到 4 之间,数值越高表示越好。
这些属性包括:
- Helpfulness: 响应对提示的整体帮助性。
- Correctness: 包含所有相关事实且无错误。
- Coherence: 表达的一致性和清晰度。
- Complexity: 编写响应所需的智力深度(即响应是否可以由具有基本语言能力的人编写,或者需要深入的领域专业知识)。
- Verbosity: 响应中包含的详细程度,相对于提示中要求的。
示例
json { "prompt": "What are the three most important things to consider when deciding what technology to use to build an assist device to help an elderly person with basic needs?", "response": "To build an assistive device to help an elderly person with basic needs, one must consider three crucial things: safety, compatibility, and ease of use. Safety is paramount, as the device must not cause harm to the user. Compatibility with the users environment and other devices is also essential. Finally, the device must be simple enough for the elderly person to operate.", "helpfulness": 3, "correctness": 4, "coherence": 4, "complexity": 2, "verbosity": 2 }
使用 Huggingface 数据集
python from datasets import load_dataset
ds = load_dataset("nvidia/HelpSteer")
train = ds[train] # len(train) = 35331 (95%) val = ds[validation] # len(val) = 1789 (5%)
数据来源
- 提示是通过模板生成(主要用于涉及长参考文本的提示)和由 Scale AI 人工生成的混合体。这些提示涉及重写、总结、分类、提取、封闭式问答、开放式问答、生成和头脑风暴等任务。
- 响应由内部早期版本的 LLM 生成。我们使用采样技术为每个提示生成最多 4 个响应,以提供多样且合理的响应。
- 各种属性的标注由 Scale AI 完成。标注者根据 Likert 5 级量表(0 到 4)对每个属性(帮助性、正确性、连贯性、复杂性和冗长性)进行评分。
标注方法(简述)
- 我们通过 Scale AI 聘请了一组精选的承包商。这些承包商提供了详细的指南,定义了每个属性以及每个评级级别的标准,以及一些标注示例。这些指南和示例在附带的论文附录中有详细说明。
- 标注过程涉及约 200 名美国本土的人工标注者。候选人首先进行了初步任务,包括英语水平评估,以确定其是否适合参与项目。随后,他们参加了关于任务的入门培训课程,该课程以对 35 个样本响应进行标注的测试结束。这一过程确保了对任务要求的深入理解,并提供了高质量的标注。
- 标注后,Scale AI 进行了广泛的质量保证,每个标注至少经过两个人工审查和自动检查。从 Scale AI 收到标注后,我们进行了独立的质量保证,以确保标注质量符合我们的期望。因此,一些标注被过滤掉,只保留了 37,120 个样本。
伦理声明
数据集的标注者通过 Scale AI 签约。Scale AI 采用 Anker 方法论、GISC 影响外包标准和联合国可持续发展目标,提供公平和有竞争力的薪酬。具体的薪酬根据多个因素计算,包括特定项目、所需的专业技能和专业知识、地区生活成本,并在 Scale AI 平台上透明列出。Scale AI 还提供多个问题和支持渠道,包括 24/7 支持团队、与专门培训的版主的社区讨论渠道,以及一个匿名报告问题的“发声”热线。工人的担忧可以提交给我们的 Remotasks 支持团队审查,薪酬争议由支持专家审查。
联系
电子邮件: Zhilin Wang
引用
如果您发现此数据集有用,请引用以下作品: bibtex @misc{wang2023helpsteer, title={HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM}, author={Zhilin Wang and Yi Dong and Jiaqi Zeng and Virginia Adams and Makesh Narsimhan Sreedhar and Daniel Egert and Olivier Delalleau and Jane Polak Scowcroft and Neel Kant and Aidan Swope and Oleksii Kuchaiev}, year={2023}, eprint={2311.09528}, archivePrefix={arXiv}, primaryClass={cs.CL} }
bibtex @misc{dong2023steerlm, title={SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF}, author={Yi Dong and Zhilin Wang and Makesh Narsimhan Sreedhar and Xianchao Wu and Oleksii Kuchaiev}, year={2023}, eprint={2310.05344}, archivePrefix={arXiv}, primaryClass={cs.CL} }




