nemotron-gym-instruction-following-calendar

Name: nemotron-gym-instruction-following-calendar
Creator: LAION eV
Published: 2026-05-16 23:27:46
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-instruction-following-calendar

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是NVIDIA Nemotron-RL-Instruction-Following-Calendar-v2数据集的Harbor格式转换版本，属于NeMo-Gym集合的一部分。它专门设计用于强化学习任务，特别是指令跟随日历相关场景。数据集中每个样本包含两个核心字段：path字段为确定性短ID（格式为<family>-<sha256[:12]>.tar.gz），task_binary字段为包含完整Harbor任务的gzip压缩tar包。tar包内部遵循标准Harbor任务布局，包含关键文件如instruction.md（提示文本）、environment/Dockerfile（基础镜像和依赖）、tests/test.sh（验证器入口点）、tests/verifier.py（验证器实现）、tests/verifier_data.json（验证器输入数据）、metadata.json（数据溯源信息）和task.toml（任务配置）。数据集转换采用安全构建原则，确保内容不会插入到源代码中，所有值通过JSON文件在运行时解析。验证器家族为calendar_constraints，专门用于解析代理JSON列表并检查每个事件的持续时间、窗口和约束条件。数据集规模属于1K到10K类别，语言为英语，适用于强化学习研究和智能体训练。

This dataset is a Harbor format conversion of the NVIDIA Nemotron-RL-Instruction-Following-Calendar-v2 dataset, part of the NeMo-Gym collection. It is specifically designed for reinforcement learning tasks, particularly instruction-following calendar-related scenarios. Each sample in the dataset contains two core fields: the path field is a deterministic short ID (format <family>-<sha256[:12]>.tar.gz), and the task_binary field is a gzip-compressed tar package containing the complete Harbor task. Inside the tar package, it follows the standard Harbor task layout, including key files such as instruction.md (prompt text displayed to the agent), environment/Dockerfile (base image based on python:3.11-slim-bookworm and task-specific pip dependencies), tests/test.sh (validator entry point), tests/verifier.py (validator implementation), tests/verifier_data.json (validator input data for each task, in JSON format without code interpolation), metadata.json (data provenance information, including source dataset, row index, family, etc.), and task.toml (standard Harbor task configuration, including CPU/memory/timeout defaults). The dataset conversion process adopts secure construction principles, ensuring dataset content is not inserted into shell, Python, or Dockerfile source code, with all values parsed at runtime via JSON files. The validator family is calendar_constraints, specifically used to parse agent JSON lists and check the duration, window, and constraints of each event. The dataset size falls into the 1K<n<10K category, the language is English, and it is suitable for reinforcement learning research and agent training.

提供机构：

LAION eV

创建时间：

2026-05-16

搜集汇总

数据集介绍

构建方式

该数据集源自NVIDIA的Nemotron-RL-Instruction-Following-Calendar-v2，经由OpenThoughts-Agent工具适配为Harbor格式。构建过程严格遵循安全原则：数据集内容不直接注入至shell、Python或Dockerfile代码中，所有可变数据均通过JSON文件在运行时解析。基础镜像固定为python:3.11-slim-bookworm，pip依赖受限在严格白名单内。文本字段经过C0/C1控制字符剔除与长度截断，压缩包路径经过遍历攻击、空字符及绝对路径攻击验证。每个任务的压缩包以确定性方式生成，确保可复现的字节序列。

特点

数据集包含超过1000条样本，每条样本对应一个日历约束指令遵循任务。每个任务由多个文件构成：instruction.md提供智能体提示，environment目录包含Dockerfile定义运行环境，tests目录内含验证器入口脚本与实现代码，以及存储任务特定输入的JSON文件。元数据文件记录了来源数据集、行索引与家族信息等溯源数据。所有验证器属于同一家族，专注于解析智能体输出的JSON列表，并逐一检查每个事件的持续时间、时间窗口及约束满足情况。

使用方法

用户可通过HuggingFace datasets库直接加载数据集，调用load_dataset函数获取训练集，每条记录包含路径标识与任务二进制压缩包。要运行单个任务，需先解压二进制数据至目录，再使用Harbor工具执行任务，支持docker或daytona等后端环境。具体的操作流程包括：读取数据集条目，利用Python的tarfile与gzip模块解压二进制字段至指定路径，随后调用harbor run命令指向该任务目录并选择执行引擎即可完成运行验证。

背景与挑战

背景概述

该数据集由LAION与NVIDIA联合基于Nemotron-RL-Instruction-Following-Calendar-v2转化而来，发布于2024年，专注于强化学习中的指令遵循能力评估。其核心研究问题在于构建一个可验证奖励信号的环境，以衡量智能体在日历约束场景下（如事件时间窗口、持续时间等条件）的指令执行准确性。作为Harbor格式的任务集，它填补了强化学习领域在结构化、可复现指令遵循基准上的空白，为后续RL训练与评估提供了标准化的测试床，对推动具备时间推理能力的智能体研究具有重要影响。

当前挑战

该数据集面临的挑战包括：其一，在强化学习领域，传统指令遵循任务多依赖人工评判或模糊奖励，难以提供细粒度、可自动验证的反馈信号，而该数据集要求智能体不仅理解自然语言指令，还需精确解析JSON格式的日历事件并满足多重约束，这对模型的组合推理能力提出了高要求。其二，构建过程中需确保数据安全性，防止代码注入攻击，例如通过将变量值限制在JSON文件中、使用正则校验Dockerfile依赖白名单等机制实现安全隔离，同时保持tarball的确定性输出以支持可复现性，这增加了数据工程难度。

常用场景

经典使用场景

该数据集专为强化学习（Reinforcement Learning）中的指令遵循能力评估而设计，提供了一个标准化的日历事件管理任务环境。研究者可将此数据集作为智能体训练与测试的基准平台，通过让智能体解析自然语言指令，完成诸如检查事件持续时间、验证时间窗口冲突、确保约束条件一致等操作，从而评估模型在结构化任务中的指令遵循精度与鲁棒性。其典型的Harbor格式封装了可复现的验证器与沙盒环境，确保每个任务实例的评估过程具备确定性与安全性。

衍生相关工作

该数据集源自NVIDIA的NeMo-Gym系列，并作为Harbor生态的衍生项目，推动了可验证奖励强化学习研究的前沿进展。基于此数据集，研究者已开发出多种指令遵循策略，如基于字节级奖励建模的RLHF改进方案，以及将日历约束纳入训练奖励的端到端微调方法。同时，其安全转化流程已被OpenThoughts-Agent项目采纳，用于构建大规模、可复现的RL训练流水线，显著降低了指令遵循任务中奖励设计的主观性与噪声干扰。

数据集最近研究