Nemotron-RL-instruction_following-structured_outputs
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-RL-instruction_following-structured_outputs
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-RL-instruction_following-structured_outputs数据集用于测试模型在JSON格式约束下的输出格式化指令遵循能力。每个问题包含三个部分:文档、输出格式化指令(模式)和问题。数据集通过改变指令位置、指令的全面性、模式的复杂性和文档/用户消息的类型来调整每个问题的难度。
提供机构:
NVIDIA
创建时间:
2025-11-14
原始信息汇总
Nemotron-RL-instruction_following-structured_outputs 数据集概述
数据集描述
- 测试模型在JSON格式模式约束下遵循输出格式指令的能力
- 每个问题包含三个组成部分:文档、输出格式指令(模式)和问题
- 通过改变指令位置、指令全面性、模式复杂性和文档/用户消息类型来调整问题难度
基本信息
- 所有者:NVIDIA Corporation
- 创建日期:2025年10月
- 许可证:CC BY 4.0
- 商业用途:已准备好用于商业用途
数据集特征
数据收集方法
- 种子[合成]
- 提示[合成]
标注方法
- [合成]
数据集格式
- 纯文本格式
- 与NeMo-Gym兼容
数据集量化
记录数量
- 训练集:9437个提示
- 验证集:512个提示
- 总计:9949个提示
特征数量
- 3个特征:responses_create_params、schema_type、schema_fields_count
存储容量
- 训练集:86.77 MiB
- 验证集:4.70 MiB
- 总计:91.47 MiB
预期用途
- 与NeMo-Gym配合使用,用于大语言模型的后训练
所属集合
- Nemo Gym Collection
参考资源
- NeMo-Gym:https://github.com/NVIDIA-NeMo/Gym
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,结构化输出生成任务对模型的格式遵循能力提出严格要求。Nemotron-RL数据集采用全合成方法构建,通过程序化生成包含文档、格式指令和问题三元组的数据单元。其构建策略通过系统调整指令位置、指令完整度、模式复杂度及文档类型四个维度,形成难度递进的测试序列,最终生成包含9949条提示词的标准化语料库。
特点
该数据集在评估模型结构化输出能力方面具有显著特性。其核心特征体现在四维难度调节机制与多层级模式约束,每条数据均包含响应创建参数、模式类型和字段数量三重特征标注。数据规模涵盖9437条训练样本与512条验证样本,总存储量达91.47MiB,所有样本均严格遵循JSON格式规范,为模型在复杂约束条件下的指令遵循能力提供精准度量基准。
使用方法
作为NeMo Gym强化学习框架的组成部分,该数据集专用于大语言模型的后期训练阶段。使用者需通过NeMo Gym环境加载数据集,利用其提供的标准化接口构建强化学习智能体。数据集采用纯文本格式存储,与框架完全兼容,开发者可借助该环境设计奖励函数,系统评估模型在结构化输出任务中的表现,进而优化其指令遵循与格式约束能力。
背景与挑战
背景概述
随着大语言模型在结构化数据生成任务中的广泛应用,2025年10月NVIDIA公司推出了Nemotron-RL指令遵循结构化输出数据集。该数据集作为NeMo强化学习训练框架的核心组成部分,专注于验证模型在JSON格式约束下遵循输出规范的能力。通过设计包含文档、模式指令与问题的三元组结构,该资源为语言模型的指令遵循性能提供了标准化评估基准,推动了可验证奖励强化学习在复杂语义解析领域的发展。
当前挑战
数据集构建面临双重挑战:在领域问题层面,需解决模型对嵌套JSON结构的语义理解偏差,以及动态模式约束下的格式一致性维护难题;在技术实现层面,合成数据生成需平衡指令位置分布、模式复杂度梯度与文档类型多样性,同时确保数千条训练样本在模式字段数量等维度形成有效难度递进。
常用场景
经典使用场景
在结构化数据生成领域,Nemotron-RL数据集通过模拟复杂JSON格式约束下的指令遵循任务,为大型语言模型的强化学习训练提供标准化环境。其核心场景涉及模型根据文档内容、输出格式指令和具体问题,动态生成符合预定模式的结构化响应,有效评估模型在多样化约束条件下的逻辑推理与格式适配能力。
解决学术问题
该数据集主要针对语言模型在结构化输出生成中的三大挑战:指令位置变化导致的语义理解偏差、复杂模式约束下的语法合规性、多类型文档的泛化能力。通过系统化构建不同难度的格式约束任务,为研究社区提供了量化评估模型指令遵循精度的基准,推动了可控文本生成领域的可验证奖励机制研究。
衍生相关工作
基于该数据集衍生的经典研究包括NeMo框架中的分层强化学习策略、多任务格式适应网络架构等。这些工作通过引入动态指令嵌入机制和模式感知奖励函数,显著提升了模型在医疗数据标准化、法律文书自动化生成等垂直领域的结构化输出质量,形成了可复用的技术范式。
以上内容由遇见数据集搜集并总结生成



