Nemotron-RL-instruction_following

Name: Nemotron-RL-instruction_following
Creator: NVIDIA
Published: 2025-11-15 07:20:13
License: 暂无描述

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-RL-instruction_following

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-RL-instruction_following数据集是由WildChat-1M数据集的提示和Open-Instruct代码库中的指令组合而成的。这些指令设计为易于验证，比如要求回答不超过200个词。这个数据集非常适合用于评估和训练模型遵循客观指令的能力，并且可以作为NVIDIA NeMo Gym的一部分用于商业用途。

提供机构：

NVIDIA

创建时间：

2025-11-14

原始信息汇总

Nemotron-RL-instruction_following 数据集概述

数据集描述

数据集由 WildChat-1M 数据集的提示与 Open-Instruct 代码库的指令组合创建
指令设计为易于验证，例如要求回复不超过200字
适用于评估和训练模型在客观指令遵循方面的能力

基本信息

所有者：NVIDIA Corporation
创建日期：2025年9月1日
许可证：ODC Attribution License
商业使用：支持

数据集特征

数据收集方法：自动化
标注方法：自动化
数据格式：纯文本，兼容NeMo-Gym
记录数量：46391个（问题，可验证指令）元组
存储大小：93 MB

用途

与NeMo-Gym配合使用，用于大语言模型的后训练

参考资源

NeMo-Gym：https://github.com/NVIDIA-NeMo/Gym
论文链接：https://github.com/allenai/IFBench/blob/main/Precise_IF_Generalization_Abilities.pdf

伦理考量

NVIDIA强调可信AI是共同责任
开发者需确保模型满足相关行业要求
提供安全问题报告渠道：https://www.nvidia.com/en-us/support/submit-security-vulnerability/

搜集汇总

数据集介绍

构建方式

在自然语言处理领域的数据集构建中，Nemotron-RL-instruction_following通过融合WildChat-1M数据集的对话提示与Open-Instruct代码库的指令模板，采用全自动化流程生成46,391组问题与可验证指令的配对。该构建策略特别注重指令的可量化验证特性，例如严格限定生成文本长度在200词以内，这种设计显著提升了模型行为可测性，为强化学习训练提供了精准的反馈基准。

特点

作为专为强化学习环境设计的数据集，其核心特征体现在指令验证机制的高度结构化。每条数据均包含明确的可量化约束条件，这种设计使模型输出能够通过客观标准进行自动化评估。数据集采用纯文本格式存储，总容量93MB，其指令设计兼顾了语义复杂度与评估可行性，为语言模型的精确指令遵循能力建立了标准化测试基准。

使用方法

该数据集需配合NVIDIA NeMo Gym框架实现其核心价值，开发者可通过加载数据元组构建强化学习训练环境。每个训练周期中，模型根据问题生成响应后，系统将自动校验其是否符合预设的可验证指令标准，进而生成精确的奖励信号。这种闭环训练机制特别适用于大语言模型的指令微调阶段，能有效提升模型在真实场景中的指令遵循鲁棒性。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，如何精确评估模型对指令的遵循能力成为关键研究课题。Nemotron-RL-instruction_following数据集由NVIDIA公司于2025年9月发布，整合了WildChat-1M数据集的对话提示与Open-Instruct代码库的可验证指令，旨在构建适用于强化学习训练的高质量指令遵循数据集。该数据集作为NeMo Gym框架的核心组成部分，通过量化可验证的响应标准，为大语言模型的指令遵循能力提供了系统化评估基准，推动了基于可验证奖励的强化学习方法在语言模型训练中的应用。

当前挑战

在指令遵循任务领域，模型需要准确理解并执行具有明确约束条件的复杂指令，这要求算法具备细粒度的语义解析与执行能力。数据集构建过程中面临双重挑战：一方面需从异构数据源中筛选符合可验证标准的指令，确保指令逻辑的严密性与执行结果的量化评估可行性；另一方面要解决自动化标注过程中指令与响应间的语义对齐问题，避免因标注噪声导致模型学习偏差。这些挑战直接关系到强化学习代理在开放域指令遵循任务中的泛化性能与鲁棒性表现。

常用场景

经典使用场景

在强化学习驱动的语言模型训练领域，Nemotron-RL-instruction_following数据集通过整合WildChat-1M的对话提示与Open-Instruct的可验证指令，构建了精准的指令遵循评估环境。其核心应用场景聚焦于训练语言模型执行具象化指令，例如严格限制生成文本在200词以内，这种设计使得模型输出结果可通过客观标准直接验证，为指令遵循能力的量化评估提供了理想基准。

解决学术问题

该数据集有效解决了语言模型训练中指令泛化能力评估的学术难题。通过提供结构化的可验证指令对，研究者能够系统性地量化模型对复杂约束条件的理解与执行精度，弥补了传统主观评价方法的局限性。这种基于客观指标的评估框架显著推进了可验证强化学习（RLVR）方法论的发展，为构建可靠的人工智能对齐技术奠定了数据基础。

衍生相关工作

基于该数据集衍生的经典研究包括NVIDIA NeMo框架中的可验证奖励强化学习体系，以及IFBench提出的指令遵循评估基准。这些工作通过构建多维度的指令验证指标，推动了《精确指令泛化能力》等核心论文的理论突破，并催生出新一代面向工业场景的对话模型调优方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集