nemotron-gym-agent-workplace
收藏数据集概述
数据集名称:laion/nemotron-gym-agent-workplace
许可证:CC-BY-4.0
任务类型:强化学习(Reinforcement Learning)
语言:英语(English)
数据集规模:1K < 样本数 < 10K
标签:harbor、nemotron-gym、rl、verifiable-rewards
数据集来源与转换
- 本数据集是对 NVIDIA 的 nvidia/Nemotron-RL-agent-workplace_assistant 数据集的 Harbor 格式转换版本。
- 转换基于 OpenThoughts-Agent 项目中的
data/nemotron_gym适配器生成。 - 转换过程强调安全性:所有数据通过
tests/verifier_data.json以 JSON 格式在运行时解析,避免注入攻击;基础镜像固定为python:3.11-slim-bookworm;路径和文本均已严格校验与清理。
数据格式与结构
每条记录包含以下列:
| 列名 | 类型 | 描述 |
|---|---|---|
path |
字符串 | 确定性短ID,格式为 <family>-<sha256[:12]>.tar.gz |
task_binary |
二进制 | 包含完整 Harbor 任务的 gzip 压缩 tar 包 |
tar 包内部目录结构(遵循 Harbor 任务布局):
instruction.md # 对智能体显示的提示(Prompt) environment/Dockerfile # 基础镜像 python:3.11-slim-bookworm 及特定 pip 依赖 tests/test.sh # 验证器入口(将奖励写入 /logs/verifier/reward.txt) tests/verifier.py # 验证器实现(嵌入且确定性的) tests/verifier_data.json # 每个任务的验证器输入(JSON,不含代码插值) metadata.json # 来源信息:source_dataset、row_index、family 等 task.toml # 标准 Harbor 任务配置(CPU、内存、超时默认值)
验证器族
- 验证器族:
tool_call_match - 功能:比较 JSON 格式的
{name, arguments}与真实工具调用(ground truth tool calls),作为上游有状态环境的单步替代方案。
使用方式
Python 加载数据
python from datasets import load_dataset
ds = load_dataset("laion/nemotron-gym-agent-workplace", split="train") print(ds[0]["path"], len(ds[0]["task_binary"]))
使用 Harbor 运行单个任务
bash
将任务提取到目录并指向 Harbor
python - <<PY import gzip, io, tarfile from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-agent-workplace", split="train") row = ds[0] with tarfile.open(fileobj=io.BytesIO(row["task_binary"]), mode="r:gz") as tar: tar.extractall("/tmp/agent-workplace-task") PY harbor run -t /tmp/agent-workplace-task -e daytona # 或 -e docker




