nemotron-gym-instruction-following-v2
收藏Hugging Face2026-05-18 更新2026-05-19 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-instruction-following-v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是laion/nemotron-gym-instruction-following-v2,为Harbor格式转换自nvidia/Nemotron-RL-instruction_following数据集。v2版本针对v1中诊断出的2.5%解决率问题进行了关键修复:首先,实现了对Google IFEval分类法的完全约束覆盖(包含48个约束ID,而v1仅17个),从而消除了约55%试验中出现的“UNSUPPORTED — failing closed”故障模式;其次,强化了指令头部,明确提供了写入/app/answer.txt的shell示例,解决了v1中约40%的“answer.txt missing”故障。数据集规模介于10K到100K之间,适用于强化学习任务,特别是与指令遵循相关的场景。每个数据样本包含两个字段:path字段为确定性短ID,格式为<family>-<sha256[:12]>.tar.gz;task_binary字段为Gzipped tar二进制数据,包含完整的Harbor任务。验证器家族为ifeval_constraints,采用声明式实现,任务容器中无第三方依赖。数据集语言为英语,标签包括harbor、nemotron-gym、rl和verifiable-rewards,许可证为cc-by-4.0。
提供机构:
LAION eV
创建时间:
2026-05-18
原始信息汇总
数据集概述:laion/nemotron-gym-instruction-following-v2
基本信息
- 许可证:Creative Commons Attribution 4.0 (CC-BY-4.0)
- 语言:英语 (en)
- 任务类别:强化学习 (reinforcement-learning)
- 标签:harbor, nemotron-gym, rl, verifiable-rewards
- 数据集规模:10K 至 100K 条数据
来源与版本
- 本数据集是对 nvidia/Nemotron-RL-instruction_following 数据集进行的 Harbor 格式转换。
- v2 版本主要针对 v1 版本中 2.5% 的解决率问题进行了修复:
- IFEval 约束全覆盖:包含 48 个约束 ID(v1 仅为 17 个),消除了 v1 中约 55% 试验因“UNSUPPORTED — failing closed”而失败的情况。
- 更强的指令头:提供了明确的 shell 示例,用于写入
/app/answer.txt文件,解决了 v1 中约 40% 因“answer.txt missing”导致的失败。
数据结构
每个数据行包含以下字段:
| 字段名 | 类型 | 描述 |
|---|---|---|
| path | 字符串 (string) | 确定性短 ID,格式为 <family>-<sha256[:12]>.tar.gz |
| task_binary | 二进制 (binary) | 包含完整 Harbor 任务的 gzip 压缩 tar 包 |
验证器说明
- 验证器家族:
ifeval_constraints,基于 Google IFEval 分类法的声明式实现。 - 特点:任务容器中不依赖任何第三方库。
搜集汇总
数据集介绍

构建方式
该数据集是基于NVIDIA推出的Nemotron-RL-instruction_following数据集,经Harbor格式转换而来,旨在为强化学习环境中的指令遵循任务提供标准化评估基准。构建过程中,通过集成完整的IFEval约束体系(涵盖48个约束标识符,较v1版本的17个显著扩展),并强化指令标题结构——例如显式提供写入/app/answer.txt的Shell示例——有效解决了v1版本中约55%的“未支持”错误和约40%的“answer.txt缺失”问题,从而优化了任务的可行性与评估一致性。
特点
数据集以Harbor格式封装,每条记录包含确定性短ID路径(如<family>-<sha256[:12]>.tar.gz)和压缩的二进制任务文件,便于分布式系统间的加载与复现。其验证器家族基于IFEval约束的声明式实现,无需第三方依赖,确保任务容器内的轻量化和可移植性。数据集规模介于1万至10万条之间,专为可验证奖励的强化学习场景设计,强调指令遵循的精确性和自动化评估的可靠性。
使用方法
使用者可通过加载Harbor格式的任务二进制文件,在强化学习或离线评估流水线中逐条解析。每条记录中的task_binary字段包含完整的任务定义,允许直接与支持Harbor格式的框架(如RL训练环境)集成。建议采用预定义的IFEval约束验证器检查输出合规性,并通过调整指令标题模板或约束覆盖范围来适配特定评估需求。数据集标注为英文单语,适用于监督微调及模型行为对齐研究。
背景与挑战
背景概述
在现代强化学习与指令跟随任务的交汇点上,数据集的质量与设计直接决定了智能体泛化能力的边界。nemotron-gym-instruction-following-v2 数据集由 LAION 团队于2024年构建,其前身源自 NVIDIA 发布的 Nemotron-RL-instruction_following 数据集。该数据集旨在解决强化学习环境中指令遵循能力的训练与验证问题,其核心研究问题在于如何通过结构化的验证奖励机制,使模型能够精准执行复杂且多约束的指令。该数据集的发布对于推动指令跟随任务从简单基准向真实世界场景迁移具有重要影响,尤其为可验证奖励的强化学习提供了一套标准化的评测框架。
当前挑战
该数据集所面对的领域挑战主要体现在指令遵循任务中多约束条件的精确满足与闭环验证的薄弱环节,例如模型常因遗漏关键指令约束而导致任务失败。在构建过程中,v1版本暴露了约55%的试次因约束未覆盖而失效,以及约40%因答案文件缺失而导致无输出的故障。针对这些问题,v2版本通过全面覆盖IFEval分类体系中的48个约束标识符,并强化指令头中的示例引导,显著提升了任务的可执行性与容错率,但仍需应对复杂指令交织时的最优策略学习与零样本迁移的挑战。
常用场景
经典使用场景
该数据集专为强化学习场景下的指令遵循能力评估而设计,其核心使用方式是将每条数据封装为Harbor格式的完整任务,通过二进制形式存储在'answer.txt'中。研究者可利用此数据集构建智能体环境,让模型根据复杂的多约束指令生成回答,并基于IFEval约束体系自动验证生成结果是否满足所有预设的规则性要求。这一机制特别适用于训练和评测大型语言模型在细粒度、可验证的指令遵循任务上的表现,成为强化学习与语言模型对齐研究中的标准评估基准。
实际应用
在实际应用中,该数据集可嵌入自动化评测流水线,用于筛选和迭代部署前的语言模型,确保其在客服、代码生成、文档整理等需要严格遵循用户指令的场景中表现稳健。企业数据团队可利用其约束验证机制,快速测试模型对复杂业务规则的遵循程度,降低因指令理解偏差导致的输出风险。此外,该数据集支持无第三方依赖的独立评估,便于集成到持续集成与持续部署(CI/CD)流程中,为模型上线前的质量门禁提供标准化工具。
衍生相关工作
该数据集作为NVIDIA Nemotron-RL指令遵循系列的演进版本,其底层采用来自Google的IFEval约束体系,相关衍生工作包括对IFEval分类法的扩展应用,例如将其移植到多轮对话、多模态指令执行等更复杂的任务形式中。同时,基于该数据集的成功实践,研究者已探索将可验证奖励机制与强化学习算法结合,衍生出新型奖励塑造技术,进一步提升了模型在动态约束条件下的自适应遵循能力。这些工作在学术界和工业界共同推动了可解释、可验证的AI对齐研究的前沿进展。
以上内容由遇见数据集搜集并总结生成



