nemotron-gym-agent-workplace

Name: nemotron-gym-agent-workplace
Creator: LAION eV
Published: 2026-05-16 23:27:52
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-agent-workplace

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是nvidia/Nemotron-RL-agent-workplace_assistant的Harbor格式转换版本，属于强化学习领域，专注于可验证奖励任务。数据规模在1,000到10,000个样本之间，使用英语。数据集采用结构化格式，每一行包含两个核心字段：path字段为确定性短ID字符串，格式为<family>-<sha256[:12]>.tar.gz；task_binary字段为二进制数据，存储gzip压缩的tar包，其中包含完整的Harbor任务。每个任务包遵循标准Harbor布局，包含以下文件：instruction.md（展示给智能体的提示）、environment/Dockerfile（基于python:3.11-slim-bookworm的任务特定Python环境）、tests/test.sh（验证器入口点）、tests/verifier.py（确定性验证器实现）、tests/verifier_data.json（JSON格式的验证器输入数据）、metadata.json（数据来源和元数据）以及task.toml（标准Harbor任务配置）。数据集采用安全构建转换，确保内容不直接插入shell、Python或Dockerfile源码，所有值通过JSON文件传递，基础镜像固定，pip规范经过严格验证，文本字段经过安全处理，tarball路径经过验证防止攻击，且生成具有确定性。验证器家族为tool_call_match，通过比较JSON格式的{name, arguments}与地面真实工具调用来进行评估。该数据集适用于强化学习智能体训练、可验证奖励系统开发以及Harbor平台上的任务执行。

This dataset is a Harbor format conversion version of nvidia/Nemotron-RL-agent-workplace_assistant, belonging to the reinforcement learning domain and focusing on verifiable reward tasks. The data scale ranges from 1,000 to 10,000 samples, using English. The dataset adopts a structured format, where each row contains two core fields: the path field is a deterministic short ID string in the format <family>-<sha256[:12]>.tar.gz; the task_binary field is binary data storing a gzip-compressed tar package containing a complete Harbor task. Each task package follows the standard Harbor layout and includes the following files: instruction.md (the prompt shown to the agent), environment/Dockerfile (a task-specific Python environment based on python:3.11-slim-bookworm), tests/test.sh (the verifier entry point), tests/verifier.py (the deterministic verifier implementation), tests/verifier_data.json (JSON-formatted verifier input data), metadata.json (data source and metadata), and task.toml (standard Harbor task configuration). The dataset employs secure build conversion, ensuring that content is not directly inserted into shell, Python, or Dockerfile source code, all values are passed via JSON files, the base image is fixed, pip specifications are strictly validated, text fields are safely processed, tarball paths are validated to prevent attacks, and generation is deterministic. The verifier family is tool_call_match, evaluated by comparing JSON-formatted {name, arguments} with ground truth tool calls. This dataset is suitable for reinforcement learning agent training, verifiable reward system development, and task execution on the Harbor platform.

提供机构：

LAION eV

创建时间：

2026-05-16

原始信息汇总

数据集概述

数据集名称：laion/nemotron-gym-agent-workplace
许可证：CC-BY-4.0
任务类型：强化学习（Reinforcement Learning）
语言：英语（English）
数据集规模：1K < 样本数 < 10K
标签：harbor、nemotron-gym、rl、verifiable-rewards

数据集来源与转换

本数据集是对 NVIDIA 的 nvidia/Nemotron-RL-agent-workplace_assistant 数据集的 Harbor 格式转换版本。
转换基于 OpenThoughts-Agent 项目中的 data/nemotron_gym 适配器生成。
转换过程强调安全性：所有数据通过 tests/verifier_data.json 以 JSON 格式在运行时解析，避免注入攻击；基础镜像固定为 python:3.11-slim-bookworm；路径和文本均已严格校验与清理。

数据格式与结构

每条记录包含以下列：

列名	类型	描述
`path`	字符串	确定性短ID，格式为 `<family>-<sha256[:12]>.tar.gz`
`task_binary`	二进制	包含完整 Harbor 任务的 gzip 压缩 tar 包

tar 包内部目录结构（遵循 Harbor 任务布局）：

instruction.md # 对智能体显示的提示（Prompt） environment/Dockerfile # 基础镜像 python:3.11-slim-bookworm 及特定 pip 依赖 tests/test.sh # 验证器入口（将奖励写入 /logs/verifier/reward.txt） tests/verifier.py # 验证器实现（嵌入且确定性的） tests/verifier_data.json # 每个任务的验证器输入（JSON，不含代码插值） metadata.json # 来源信息：source_dataset、row_index、family 等 task.toml # 标准 Harbor 任务配置（CPU、内存、超时默认值）

验证器族

验证器族：tool_call_match
功能：比较 JSON 格式的 {name, arguments} 与真实工具调用（ground truth tool calls），作为上游有状态环境的单步替代方案。

使用方式

Python 加载数据

python from datasets import load_dataset

ds = load_dataset("laion/nemotron-gym-agent-workplace", split="train") print(ds[0]["path"], len(ds[0]["task_binary"]))

使用 Harbor 运行单个任务

bash

将任务提取到目录并指向 Harbor

python - <<PY import gzip, io, tarfile from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-agent-workplace", split="train") row = ds[0] with tarfile.open(fileobj=io.BytesIO(row["task_binary"]), mode="r:gz") as tar: tar.extractall("/tmp/agent-workplace-task") PY harbor run -t /tmp/agent-workplace-task -e daytona # 或 -e docker

搜集汇总

数据集介绍

构建方式

该数据集源自NVIDIA的Nemotron-Gym系列，经Harbor格式转换后构建而成。转换过程严格遵循安全优先原则，原始数据从不被直接嵌入shell、Python或Dockerfile源码中，所有数值仅通过独立的JSON文件传递，并在运行时解析。同时，基础镜像固定为python:3.11-slim-bookworm，且仅允许白名单内的pip依赖。每一行数据对应一个完整的Harbor任务，以加密压缩的二进制形式存储，包含指令文件、运行环境、验证器脚本及元数据等，确保了任务的完整性和可复现性。

特点

该数据集专为强化学习场景设计，其显著特点在于内建了可验证的奖励机制。每个任务均附带独立的验证器入口和实现代码，能够根据代理的行为输出客观的奖励分数。此外，数据集采用了结构化、确定性的压缩存储格式，所有文本字段均经过控制字符过滤和长度限制，且压缩包内文件顺序、时间戳均被统一固化，从而保证了生成字节流的完全可复现，极大便利了大规模RL训练中的结果比对与调试。

使用方法

用户可通过HuggingFace的datasets库直接加载该数据集，以获取任务标识符和对应的压缩二进制数据。若要运行具体任务，需首先将二进制数据解压至本地目录（例如通过Python内置的tarfile和gzip模块），随后借助Harbor工具并指定执行环境（如daytona或docker），即可启动任务并触发环境准备、代理执行及最终的奖励验证。这种设计使得从数据加载到离线或在线RL评估的流程无缝衔接。

背景与挑战

背景概述

该数据集由LAION团队与NVIDIA合作，于近期基于NVIDIA的Nemotron-Gym项目构建，旨在为强化学习代理提供标准化、安全且可复现的训练与评估环境。核心研究问题聚焦于如何通过结构化的任务格式（Harbor格式）将复杂的办公辅助场景转化为可验证的强化学习基准，从而推动智能体在真实世界工具调用与多步骤规划能力上的发展。作为Nemotron-Gym系列的一部分，该数据集填补了从仿真环境到实际应用之间的数据鸿沟，尤其为可验证奖励（verifiable rewards）机制的研究提供了关键支撑，对探索鲁棒且可靠的智能体训练范式具有重要影响力。

当前挑战

当前面临的挑战主要体现在领域问题与构建过程两个层面。在领域问题方面，数据集所解决的办公辅助任务要求智能体具备精准的JSON格式工具调用能力，但单步骤匹配的简化验证方式难以应对真实场景中多步骤交互与状态依赖的复杂性，可能导致模型过度拟合特定模式。在构建过程中，为确保安全性与可复现性，必须严格限制数据插值与执行环境，例如通过白名单机制过滤pip依赖、剥离控制字符及路径攻击检测，这些措施虽提升了鲁棒性，但也增加了任务构建的复杂度，并可能限制任务多样性的自然扩展。

常用场景

经典使用场景

在强化学习与智能体系统交汇的前沿领域，nemotron-gym-agent-workplace数据集为训练和评估语言模型驱动的智能体提供了标准化且安全可靠的竞技场。该数据集将复杂的工作场所助理任务转化为结构化的Harbor格式，每一行记录都封装了完整的任务环境，包括指示智能体的提示指令、运行环境的Dockerfile、验证器脚本以及元数据。研究者能够借助Harbor框架，以可复现、可隔离的方式运行这些任务，从而在模拟的工作场景中系统性地测试智能体的工具调用能力、决策推理能力以及对多步指令的遵循程度。

实际应用

在实际产业应用中，该数据集所封装的任务场景直接映射到企业办公自动化、智能客服辅助、软件开发协作等多个具有高价值潜力的领域。例如，智能体可以被训练来自动化执行邮件撰写与回复、日程管理、信息检索以及简单的数据处理流程。通过在此数据集上进行模拟训练与测评，开发者可以低成本、高效率地验证智能体在模拟工作环境中的表现，从而加速从实验室研究到商业落地的转化过程。该数据集的安全构造特性，包括基础镜像版本锁定与依赖白名单验证，也确保了在真实部署环境中的运行安全性，避免了传统智能体训练中常见的代码注入与路径遍历风险。

衍生相关工作

nemotron-gym-agent-workplace作为NVIDIA NeMo-Gym系列的重要衍生成果，其源头可追溯至nvidia/Nemotron-RL-agent-workplace_assistant数据集。通过OpenThoughts-Agent项目中的专用适配器进行转换，该数据集在保持原始任务语义完整性的同时，采用了安全优先的构造范式，杜绝了数据内容向可执行代码的插值注入风险。这一工作与Harbor框架的结合，为智能体训练数据的共享与复现提供了全新范式。后续研究者可以基于该数据集的验证器族（tool_call_match）设计更复杂的多步骤任务，也可以将其集成到大规模强化学习训练管道中，进而衍生出对工具调用泛化能力、零样本迁移性能以及多智能体协作效率等前沿课题的深入探讨。

以上内容由遇见数据集搜集并总结生成