Nemotron-RL-instruction_following-structured_outputs

Name: Nemotron-RL-instruction_following-structured_outputs
Creator: NVIDIA
Published: 2025-11-15 07:17:58
License: 暂无描述

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-RL-instruction_following-structured_outputs

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-RL-instruction_following-structured_outputs数据集用于测试模型在JSON格式约束下的输出格式化指令遵循能力。每个问题包含三个部分：文档、输出格式化指令（模式）和问题。数据集通过改变指令位置、指令的全面性、模式的复杂性和文档/用户消息的类型来调整每个问题的难度。

提供机构：

NVIDIA

创建时间：

2025-11-14

原始信息汇总

Nemotron-RL-instruction_following-structured_outputs 数据集概述

数据集描述

测试模型在JSON格式模式约束下遵循输出格式指令的能力
每个问题包含三个组成部分：文档、输出格式指令（模式）和问题
通过改变指令位置、指令全面性、模式复杂性和文档/用户消息类型来调整问题难度

基本信息

所有者：NVIDIA Corporation
创建日期：2025年10月
许可证：CC BY 4.0
商业用途：已准备好用于商业用途

数据集特征

数据收集方法

种子[合成]
提示[合成]

标注方法

[合成]

数据集格式

纯文本格式
与NeMo-Gym兼容

数据集量化

记录数量

训练集：9437个提示
验证集：512个提示
总计：9949个提示

特征数量

3个特征：responses_create_params、schema_type、schema_fields_count

存储容量

训练集：86.77 MiB
验证集：4.70 MiB
总计：91.47 MiB

预期用途

与NeMo-Gym配合使用，用于大语言模型的后训练

所属集合

Nemo Gym Collection

参考资源

NeMo-Gym：https://github.com/NVIDIA-NeMo/Gym

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，结构化输出生成任务对模型的格式遵循能力提出严格要求。Nemotron-RL数据集采用全合成方法构建，通过程序化生成包含文档、格式指令和问题三元组的数据单元。其构建策略通过系统调整指令位置、指令完整度、模式复杂度及文档类型四个维度，形成难度递进的测试序列，最终生成包含9949条提示词的标准化语料库。

特点

该数据集在评估模型结构化输出能力方面具有显著特性。其核心特征体现在四维难度调节机制与多层级模式约束，每条数据均包含响应创建参数、模式类型和字段数量三重特征标注。数据规模涵盖9437条训练样本与512条验证样本，总存储量达91.47MiB，所有样本均严格遵循JSON格式规范，为模型在复杂约束条件下的指令遵循能力提供精准度量基准。

使用方法

作为NeMo Gym强化学习框架的组成部分，该数据集专用于大语言模型的后期训练阶段。使用者需通过NeMo Gym环境加载数据集，利用其提供的标准化接口构建强化学习智能体。数据集采用纯文本格式存储，与框架完全兼容，开发者可借助该环境设计奖励函数，系统评估模型在结构化输出任务中的表现，进而优化其指令遵循与格式约束能力。

背景与挑战

背景概述

随着大语言模型在结构化数据生成任务中的广泛应用，2025年10月NVIDIA公司推出了Nemotron-RL指令遵循结构化输出数据集。该数据集作为NeMo强化学习训练框架的核心组成部分，专注于验证模型在JSON格式约束下遵循输出规范的能力。通过设计包含文档、模式指令与问题的三元组结构，该资源为语言模型的指令遵循性能提供了标准化评估基准，推动了可验证奖励强化学习在复杂语义解析领域的发展。

当前挑战

数据集构建面临双重挑战：在领域问题层面，需解决模型对嵌套JSON结构的语义理解偏差，以及动态模式约束下的格式一致性维护难题；在技术实现层面，合成数据生成需平衡指令位置分布、模式复杂度梯度与文档类型多样性，同时确保数千条训练样本在模式字段数量等维度形成有效难度递进。

常用场景

经典使用场景

在结构化数据生成领域，Nemotron-RL数据集通过模拟复杂JSON格式约束下的指令遵循任务，为大型语言模型的强化学习训练提供标准化环境。其核心场景涉及模型根据文档内容、输出格式指令和具体问题，动态生成符合预定模式的结构化响应，有效评估模型在多样化约束条件下的逻辑推理与格式适配能力。

解决学术问题

该数据集主要针对语言模型在结构化输出生成中的三大挑战：指令位置变化导致的语义理解偏差、复杂模式约束下的语法合规性、多类型文档的泛化能力。通过系统化构建不同难度的格式约束任务，为研究社区提供了量化评估模型指令遵循精度的基准，推动了可控文本生成领域的可验证奖励机制研究。

衍生相关工作

基于该数据集衍生的经典研究包括NeMo框架中的分层强化学习策略、多任务格式适应网络架构等。这些工作通过引入动态指令嵌入机制和模式感知奖励函数，显著提升了模型在医疗数据标准化、法律文书自动化生成等垂直领域的结构化输出质量，形成了可复用的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集