five

Nemotron-RL-instruction_following-structured_outputs

收藏
Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-RL-instruction_following-structured_outputs
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-RL-instruction_following-structured_outputs数据集用于测试模型在JSON格式约束下的输出格式化指令遵循能力。每个问题包含三个部分:文档、输出格式化指令(模式)和问题。数据集通过改变指令位置、指令的全面性、模式的复杂性和文档/用户消息的类型来调整每个问题的难度。
提供机构:
NVIDIA
创建时间:
2025-11-14
原始信息汇总

Nemotron-RL-instruction_following-structured_outputs 数据集概述

数据集描述

  • 测试模型在JSON格式模式约束下遵循输出格式指令的能力
  • 每个问题包含三个组成部分:文档、输出格式指令(模式)和问题
  • 通过改变指令位置、指令全面性、模式复杂性和文档/用户消息类型来调整问题难度

基本信息

  • 所有者:NVIDIA Corporation
  • 创建日期:2025年10月
  • 许可证:CC BY 4.0
  • 商业用途:已准备好用于商业用途

数据集特征

数据收集方法

  • 种子[合成]
  • 提示[合成]

标注方法

  • [合成]

数据集格式

  • 纯文本格式
  • 与NeMo-Gym兼容

数据集量化

记录数量

  • 训练集:9437个提示
  • 验证集:512个提示
  • 总计:9949个提示

特征数量

  • 3个特征:responses_create_params、schema_type、schema_fields_count

存储容量

  • 训练集:86.77 MiB
  • 验证集:4.70 MiB
  • 总计:91.47 MiB

预期用途

  • 与NeMo-Gym配合使用,用于大语言模型的后训练

所属集合

  • Nemo Gym Collection

参考资源

  • NeMo-Gym:https://github.com/NVIDIA-NeMo/Gym
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,结构化输出生成任务对模型的格式遵循能力提出严格要求。Nemotron-RL数据集采用全合成方法构建,通过程序化生成包含文档、格式指令和问题三元组的数据单元。其构建策略通过系统调整指令位置、指令完整度、模式复杂度及文档类型四个维度,形成难度递进的测试序列,最终生成包含9949条提示词的标准化语料库。
特点
该数据集在评估模型结构化输出能力方面具有显著特性。其核心特征体现在四维难度调节机制与多层级模式约束,每条数据均包含响应创建参数、模式类型和字段数量三重特征标注。数据规模涵盖9437条训练样本与512条验证样本,总存储量达91.47MiB,所有样本均严格遵循JSON格式规范,为模型在复杂约束条件下的指令遵循能力提供精准度量基准。
使用方法
作为NeMo Gym强化学习框架的组成部分,该数据集专用于大语言模型的后期训练阶段。使用者需通过NeMo Gym环境加载数据集,利用其提供的标准化接口构建强化学习智能体。数据集采用纯文本格式存储,与框架完全兼容,开发者可借助该环境设计奖励函数,系统评估模型在结构化输出任务中的表现,进而优化其指令遵循与格式约束能力。
背景与挑战
背景概述
随着大语言模型在结构化数据生成任务中的广泛应用,2025年10月NVIDIA公司推出了Nemotron-RL指令遵循结构化输出数据集。该数据集作为NeMo强化学习训练框架的核心组成部分,专注于验证模型在JSON格式约束下遵循输出规范的能力。通过设计包含文档、模式指令与问题的三元组结构,该资源为语言模型的指令遵循性能提供了标准化评估基准,推动了可验证奖励强化学习在复杂语义解析领域的发展。
当前挑战
数据集构建面临双重挑战:在领域问题层面,需解决模型对嵌套JSON结构的语义理解偏差,以及动态模式约束下的格式一致性维护难题;在技术实现层面,合成数据生成需平衡指令位置分布、模式复杂度梯度与文档类型多样性,同时确保数千条训练样本在模式字段数量等维度形成有效难度递进。
常用场景
经典使用场景
在结构化数据生成领域,Nemotron-RL数据集通过模拟复杂JSON格式约束下的指令遵循任务,为大型语言模型的强化学习训练提供标准化环境。其核心场景涉及模型根据文档内容、输出格式指令和具体问题,动态生成符合预定模式的结构化响应,有效评估模型在多样化约束条件下的逻辑推理与格式适配能力。
解决学术问题
该数据集主要针对语言模型在结构化输出生成中的三大挑战:指令位置变化导致的语义理解偏差、复杂模式约束下的语法合规性、多类型文档的泛化能力。通过系统化构建不同难度的格式约束任务,为研究社区提供了量化评估模型指令遵循精度的基准,推动了可控文本生成领域的可验证奖励机制研究。
衍生相关工作
基于该数据集衍生的经典研究包括NeMo框架中的分层强化学习策略、多任务格式适应网络架构等。这些工作通过引入动态指令嵌入机制和模式感知奖励函数,显著提升了模型在医疗数据标准化、法律文书自动化生成等垂直领域的结构化输出质量,形成了可复用的技术范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作