nemotron-gym-agent-calendar

Name: nemotron-gym-agent-calendar
Creator: LAION eV
Published: 2026-05-16 23:27:51
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-agent-calendar

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是nvidia/Nemotron-RL-agent-calendar_scheduling的Harbor格式转换版本，属于强化学习领域，特别关注可验证奖励任务。数据集专为日历调度场景设计，包含约1,000至10,000个任务样本。每个数据行包含两个字段：path字段为确定性的短ID字符串（格式为`<家族>-<SHA256哈希前12位>.tar.gz`），task_binary字段为gzip压缩的tar归档二进制数据，内含完整的Harbor任务包。任务包采用标准Harbor布局，包含以下核心文件：给智能体展示的提示文本（instruction.md）、基于python:3.11-slim-bookworm镜像并添加特定pip依赖的Docker环境配置（environment/Dockerfile）、验证器入口脚本及实现（tests/test.sh, tests/verifier.py）、每个任务特定的验证器输入数据JSON文件（tests/verifier_data.json）、记录来源数据集、行索引、任务家族等信息的元数据（metadata.json），以及包含CPU/内存/超时等默认配置的标准任务配置文件（task.toml）。数据转换过程严格遵循安全原则：所有数据集内容均通过JSON文件在运行时传递，绝不插值到Shell、Python或Dockerfile源代码中；基础镜像名称固定；pip依赖规格通过严格的正则表达式白名单验证；文本字段已清除控制字符并限制长度；压缩包路径经过防遍历等安全验证；生成的压缩包具有确定性（条目排序、修改时间、用户/组ID均标准化），确保字节级可复现。该数据集适用于训练和评估智能体在遵循指令的日历约束环境下进行决策和调度，可与Harbor框架直接集成运行。

This dataset is a Harbor format conversion version of nvidia/Nemotron-RL-agent-calendar_scheduling, belonging to the reinforcement learning domain, with a focus on verifiable reward tasks. It is specifically designed for calendar scheduling scenarios, containing approximately 1,000 to 10,000 task samples. Each data row includes two fields: the path field is a deterministic short ID string (format: `<family>-<first 12 characters of SHA256 hash>.tar.gz`), and the task_binary field is gzip-compressed tar archive binary data containing a complete Harbor task package. The task package follows the standard Harbor layout, including the following core files: prompt text for the agent (instruction.md), Docker environment configuration based on the python:3.11-slim-bookworm image with specific pip dependencies (environment/Dockerfile), verifier entry script and implementation (tests/test.sh, tests/verifier.py), task-specific verifier input data JSON file (tests/verifier_data.json), metadata recording source dataset, row index, task family, etc. (metadata.json), and a standard task configuration file with default settings such as CPU/memory/timeout (task.toml). The data conversion process strictly adheres to security principles: all dataset content is passed via JSON files at runtime and never interpolated into Shell, Python, or Dockerfile source code; the base image name is fixed; pip dependency specifications are validated through strict regular expression whitelists; text fields are cleared of control characters and length-limited; compressed package paths are validated against traversal attacks; and the generated compressed packages are deterministic (with standardized entry ordering, modification times, user/group IDs), ensuring byte-level reproducibility. This dataset is suitable for training and evaluating agents in decision-making and scheduling within calendar-constrained environments that follow instructions, and can be directly integrated with the Harbor framework.

提供机构：

LAION eV

创建时间：

2026-05-16

原始信息汇总

数据集概览

数据集名称： laion/nemotron-gym-agent-calendar

许可协议： CC-BY-4.0

任务类别： 强化学习（reinforcement-learning）

语言： 英语

数据规模： 1,000 < 样本数 < 10,000

数据集来源与转换

该数据集是对 NVIDIA 的 nvidia/Nemotron-RL-agent-calendar_scheduling 数据集的 Harbor 格式转换版本。
转换由 OpenThoughts-Agent 项目中的 data/nemotron_gym 适配器生成。
该数据集是 NVIDIA NeMo-Gym 集合的衍生数据集。

数据格式与结构

每一行数据包含两个字段：

字段	类型	说明
`path`	字符串	确定性短ID（格式：`<家族名>-<sha256[:12]>.tar.gz`）
`task_binary`	二进制	包含完整 Harbor 任务的 Gzip 压缩 tar 包

任务包内容

解压后的 tarball 遵循 Harbor 的任务布局，包含以下文件：

文件	说明
`instruction.md`	展示给智能体的提示
`environment/Dockerfile`	基于 `python:3.11-slim-bookworm` 基础镜像，包含任务特定的 pip 依赖
`tests/test.sh`	验证器入口（写入 `/logs/verifier/reward.txt`）
`tests/verifier.py`	验证器实现（内嵌、确定性）
`tests/verifier_data.json`	每个任务的验证器输入（JSON格式，无代码插值）
`metadata.json`	来源信息：原始数据集、行索引、任务家族等
`task.toml`	标准 Harbor 任务配置（默认CPU、内存、超时设置）

安全性保障

转换过程采用“安全构造”原则：

数据集内容不会被插值到 shell、Python 或 Dockerfile 源码中，所有值均通过 tests/verifier_data.json（运行时解析的JSON）传递。
基础镜像名称固定为 python:3.11-slim-bookworm，pip 依赖需通过严格的允许列表正则表达式验证。
文本字段已清除 C0/C1 控制字符，长度受限，tarball 路径已验证防止遍历攻击/NUL字符/绝对路径攻击。
tarball 是确定性的（条目排序、mtime=0、uid/gid=0），确保字节可重现。

验证器家族

验证器家族为 calendar_constraints（与 instruction-following-calendar 相同），详情请参考源转换器。

使用方式

加载数据集（Harbor）：

python from datasets import load_dataset

ds = load_dataset("laion/nemotron-gym-agent-calendar", split="train") print(ds[0]["path"], len(ds[0]["task_binary"]))

运行单个任务：

bash

将任务解压到目录并指向 Harbor

python - <<PY import gzip, io, tarfile from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-agent-calendar", split="train") row = ds[0] with tarfile.open(fileobj=io.BytesIO(row["task_binary"]), mode="r:gz") as tar: tar.extractall("/tmp/agent-calendar-task") PY harbor run -t /tmp/agent-calendar-task -e daytona # 或 -e docker

搜集汇总

数据集介绍

构建方式

该数据集源于NVIDIA的Nemotron-RL-agent-calendar_scheduling，经OpenThoughts-Agent工具适配转换为Harbor格式。构建过程遵循安全优先原则：所有任务数据被封装为确定性tarball压缩包，包含instruction.md提示、环境Dockerfile、验证脚本及verifier_data.json等关键文件。内容从不嵌入到shell或Python源码中，仅通过JSON文件传递参数，基础镜像固定为python:3.11-slim-bookworm，且对文本字段进行控制字符清理与长度限制，确保路径安全与可复现性。

特点

本数据集专为强化学习中的智能体日历调度任务设计，属于calendar_constraints验证器家族。每行数据包含一个唯一标识路径和二进制任务包，支持可验证奖励机制。其安全性突出的独特之处在于，通过严格的正则白名单验证pip依赖、剔除路径遍历攻击风险，并以确定性方式生成压缩包（排序条目、统一时间戳和权限），保障数据在分布式训练中的一致性与审计可追溯性。

使用方法

用户可通过HuggingFace Datasets库加载数据，调用load_dataset('laion/nemotron-gym-agent-calendar', split='train')即可获取训练集。每个样本的task_binary字段为gzip压缩tar包，可提取到本地目录后，借助Harbor工具配合Docker或Daytona等执行引擎运行。典型工作流包括：使用Python解压指定行数据至临时路径，再运行harbor run命令启动智能体任务，验证器会自动生成奖励分数到指定日志位置。

背景与挑战

背景概述

nemotron-gym-agent-calendar数据集由LAION团队于2024年基于NVIDIA的Nemotron-RL-agent-calendar_scheduling数据集转换而来，旨在为强化学习智能体提供标准化的日历调度任务训练环境。该数据集隶属于NVIDIA NeMo-Gym系列，专注于验证智能体在复杂约束条件下的规划与决策能力。通过Harbor格式的封装，数据集不仅保留了原始任务的核心指令与验证逻辑，还确保了操作的安全性、可复现性与跨平台兼容性。在强化学习与自主智能体研究领域，此类面向真实世界场景的基准数据集对于推动算法从模拟环境向实际应用迁移具有关键作用，尤其有助于评估智能体在时序推理与资源分配等复杂任务上的泛化性能。

当前挑战

该数据集所解决的领域问题主要聚焦于强化学习智能体在日历调度任务中的约束满足能力，这类问题需要智能体在有限资源与时间窗口内优化安排，其核心挑战在于处理多样化的用户偏好与动态变化的优先级。在数据构建过程中，团队面临多重技术难题：首先需确保从原始数据到Harbor格式的转换过程完全确定且无安全隐患，避免代码注入或路径遍历攻击；其次要设计严格的验证器，能够在有限计算资源内准确衡量智能体输出与真实最优解之间的差距；此外，还需平衡任务难度与可求解性，使得数据既能充分测试算法极限又不至于因过于复杂而丧失参考价值。

常用场景

经典使用场景

在强化学习与智能体训练的研究领域中，nemotron-gym-agent-calendar数据集为日历调度任务提供了标准化的验证环境。该数据集源自NVIDIA的NeMo-Gym系列，经过Harbor格式的安全转换，每个样本包含完整的任务定义、部署配置和验证脚本。研究者可在此基础上设计遵循指令的智能体，通过可复现的奖励机制评估模型在复杂约束条件下的调度能力。数据集的哈希验证和确定性打包机制确保了实验的可重复性，使其成为智能体训练、多步骤推理和工具使用场景下不可或缺的基准数据源。

解决学术问题

该数据集针对性地解决了智能体在结构化环境中的指令遵循与奖励建模这一核心学术问题。传统强化学习研究在开放域任务中往往面临奖励稀疏和验证困难，而nemotron-gym-agent-calendar通过精心设计的verifier.py和verifier_data.json，将约束满足问题转化为可计算、可验证的奖励信号。这为研究者在可控条件下探索可验证奖励机制、策略泛化能力以及多步推理的信用分配提供了标准化的实验平台，推动了从简单游戏环境向真实世界调度场景的学术跃迁。

衍生相关工作

该数据集衍生了多个方向的经典工作，其中最显著的是对可验证奖励机制在智能体训练中普适性的探索。基于Harbor格式的安全转换理念，研究者进一步开发了针对其他环境（如文件系统、数据库和Web API）的标准化验证器系列。此外，该数据集还催生了关于指令遵循智能体的鲁棒性评估研究，以及将日历调度问题拓展至多智能体协作场景的尝试，形成了从单一调度到复杂环境多层次验证的完整研究脉络，在开放思想智能体(OpenThoughts-Agent)等项目中得到广泛采用。

以上内容由遇见数据集搜集并总结生成