HelpSteer3-Preference

Name: HelpSteer3-Preference
Creator: NVIDIA
Published: 2025-05-17 01:31:19
License: 暂无描述

arXiv2025-05-17 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/nvidia/HelpSteer3#preference

下载链接

链接失效反馈

官方服务：

资源简介：

HelpSteer3-Preference是一个高质量的、由人类注释的偏好数据集，包含超过40,000个样本。这些样本涵盖了大型语言模型（LLMs）在STEM、编码和多语言场景中的广泛应用。数据集由专家注释者团队在多个任务类别上进行高质量注释，包括STEM（科学、技术、工程和数学）、编码和多语言，以及通用任务。该数据集旨在训练奖励模型（RMs），以提升大型语言模型在多样化任务上的表现，并解决现实世界中的复杂问题。

HelpSteer3-Preference is a high-quality, human-annotated preference dataset containing over 40,000 samples. These samples cover a wide range of applications of Large Language Models (LLMs) in STEM, coding, and multilingual scenarios. The dataset was annotated with high quality by a team of expert annotators across multiple task categories, including STEM (Science, Technology, Engineering and Mathematics), coding, multilingual tasks, and general-purpose tasks. This dataset is designed to train Reward Models (RMs) to enhance the performance of Large Language Models on diverse tasks and address complex real-world problems.

提供机构：

NVIDIA

创建时间：

2025-05-17

原始信息汇总

数据集概述：nvidia/HelpSteer3

数据集结构

配置类型：包含4种配置
- preference
- edit
- edit_quality
- feedback

数据子集详情

1. preference子集

描述：用于偏好学习的对话数据
数据字段：
- split：训练/验证划分（train/validation）
- domain：领域类别
- language：语言标识
- context：对话上下文（数组结构）
  - role：说话者角色
  - content：对话内容
- response1：第一种响应
- response2：第二种响应
- overall_preference：整体偏好评分（整数）
- individual_preference：细粒度偏好分析（数组结构）
  - score：单项评分
  - reasoning：评分理由
  - feedback1：对响应1的反馈
  - feedback2：对响应2的反馈

2. edit子集

描述：包含编辑前后的响应数据
数据字段：
- split：训练/验证划分
- domain：领域类别
- language：语言标识
- context：对话上下文（同上）
- original_response：原始响应
- edited_response：编辑后响应
- feedback：编辑反馈（数组）
- change_summary：修改摘要

3. edit_quality子集

描述：用于评估编辑质量的数据
数据字段：
- split：训练/验证划分
- domain：领域类别
- language：语言标识
- context：对话上下文（同上）
- original_response：原始响应
- good_edited_response：优质编辑响应
- bad_edited_response：劣质编辑响应

数据格式

所有数据以Parquet格式存储
文件路径结构：{config_name}/{split}/*.parquet

搜集汇总

数据集介绍

构建方式

HelpSteer3-Preference数据集的构建采用了多阶段专家标注策略，通过Scale AI和Translated两家专业数据标注公司，招募了来自77个国家/地区的6400余名专业标注人员。数据源涵盖WildChat-1M和ShareGPT平台的多样化提示词，并采用17种商业许可的大语言模型生成响应。每个样本经过3-5名独立标注者的多轮标注，通过严格的标注质量控制（包括标注者资质审核、标注指南培训和标注结果复核）确保数据质量。标注过程特别关注STEM、编程和多语言等专业领域，要求标注者具备相关领域学位或工作经历。数据集最终包含40,476个样本，采用CC-BY-4.0许可协议开放。

特点

该数据集的核心特点体现在三个方面：领域多样性覆盖STEM、编程和多语言等专业场景；标注质量通过加权Cohen's κ系数达到0.89的高评分者一致性；以及低位置偏差（平均偏好得分接近0）。特别地，编程子集包含14种编程语言样本，多语言子集涵盖13种自然语言，其中中文样本占比达30.2%。数据集还创新性地采用多轮对话填充技术，将对话上下文限制在2000词以内，仅对最终助手响应进行偏好标注，增强了数据实用性。

使用方法

该数据集主要适用于三个应用场景：首先可作为奖励模型训练数据，通过Bradley-Terry损失函数优化模型参数；其次支持生成式奖励模型开发，利用响应文本生成批判性评价；第三适用于强化学习人类反馈（RLHF）流程中的策略模型对齐。使用时应重点关注数据子集特性——英语子集（General+STEM+Code）在JudgeBench表现最佳（73.7%准确率），而多语言子集在RM-Bench硬样本上优势显著（80.0%准确率）。建议配合NeMo-Aligner工具包实现端到端训练流程。

背景与挑战

背景概述

HelpSteer3-Preference是由NVIDIA团队于2025年3月推出的开放领域偏好数据集，专注于通过人类专家标注提升大规模语言模型(LLM)的强化学习人类反馈(RLHF)效果。该数据集包含40,000余个样本，涵盖STEM、编程和多语言场景等多样化任务，采用CC-BY-4.0许可协议开放。作为第三代通用领域偏好数据集，它在数据质量、多样性和商业友好性方面显著超越前代作品，其训练的奖励模型在RM-Bench和JudgeBench基准上分别达到82.4%和73.7%的顶尖性能。该数据集通过专业标注者池（包括STEM领域学者、软件工程师和语言专家）的严格质量控制，解决了早期数据集存在的标注质量瓶颈问题，为LLM对齐研究提供了重要基础设施。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态任务评估的复杂性，特别是编程和多语言场景中风格偏好与功能正确性的权衡难题，以及跨文化语境下人类偏好的量化建模问题。在构建过程中，挑战包括：1)专业标注者的招募与质量控制，需平衡77个国家/地区的6,400名标注者的专业资质与标注一致性；2)多轮对话场景的偏好标注可靠性，需处理高达4.1轮的平均对话轮次；3)响应长度与Markdown格式等表面特征对标注偏好的潜在干扰，这在代码子集中造成38%的标注差异。此外，数据集的规模扩张（达HelpSteer2的4倍）带来了标注成本与质量监控的平衡挑战，特别是对14种编程语言和13种自然语言的覆盖需求。

常用场景

经典使用场景

HelpSteer3-Preference数据集在自然语言处理领域中被广泛应用于训练和评估基于人类反馈的强化学习（RLHF）模型。该数据集通过提供多样化的任务场景，包括STEM、编程和多语言处理，使得研究人员能够训练出更具泛化能力的奖励模型（Reward Models）和生成模型。其高质量的人类标注数据为模型优化提供了可靠的基准，特别是在需要精确评估模型输出的任务中。

解决学术问题

HelpSteer3-Preference解决了RLHF研究中数据质量不足和多样性缺乏的关键问题。通过提供超过40,000个高质量标注样本，该数据集显著提升了奖励模型在RM-Bench和JudgeBench等基准测试中的表现，实现了约10%的绝对性能提升。此外，其多语言和专业化任务标注为研究跨语言和跨领域模型对齐提供了宝贵资源，填补了现有数据集中语言和任务覆盖的空白。

衍生相关工作

该数据集衍生了一系列重要研究，包括基于其训练的Llama-3.3-70B-Instruct奖励模型、生成式奖励模型（Generative RMs）创新，以及新型模型对齐算法探索。相关成果发表在NeurIPS、ICLR等顶级会议，并推动了NeMo-Aligner等开源工具链的发展。Skywork-Reward、INF-ORM等后续工作均以该数据集为基准，形成了RLHF研究的新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集