nemotron-gym-safety-v2

Name: nemotron-gym-safety-v2
Creator: LAION eV
Published: 2026-05-18 18:23:41
License: 暂无描述

Hugging Face2026-05-18 更新2026-05-19 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-safety-v2

下载链接

链接失效反馈

官方服务：

资源简介：

laion/nemotron-gym-safety-v2数据集是nvidia/Nemotron-RL-Safety-v1数据集的Harbor格式转换版本，专门用于强化学习安全任务。该数据集包含10K到100K个样本，每个样本由两个字段组成：path字段为确定性短ID字符串，格式为<family>-<sha256[:12]>.tar.gz；task_binary字段为包含完整Harbor任务的gzipped tar压缩包。数据包遵循Harbor任务布局标准，包含instruction.md（代理提示）、environment/Dockerfile（任务特定依赖）、tests/test.sh（验证器入口点）、tests/verifier.py（验证器实现）、tests/verifier_data.json（验证器输入数据）、metadata.json（数据来源元数据）和task.toml（任务配置）等文件。数据集采用安全构造转换方法，确保内容不插入shell、Python或Dockerfile源代码，所有值都通过JSON文件传递，基础镜像固定为python:3.11-slim-bookworm，pip规范通过严格白名单正则表达式验证。验证器家族采用safety_judge（基于LiteLLM和默认的openai/gpt-4o-mini模型），根据原则性评分标准进行评分，并包含启发式拒绝检测回退机制。该数据集适用于需要可验证奖励的强化学习安全研究，特别是与Harbor框架集成的场景。

The laion/nemotron-gym-safety-v2 dataset is a Harbor format conversion version of the nvidia/Nemotron-RL-Safety-v1 dataset, specifically designed for reinforcement learning safety tasks. It contains between 10K and 100K samples, each consisting of two fields: the path field is a deterministic short ID string in the format <family>-<sha256[:12]>.tar.gz, and the task_binary field is a gzipped tar archive containing the complete Harbor task. The data packages adhere to the Harbor task layout standard, including files such as instruction.md (agent prompt), environment/Dockerfile (task-specific dependencies), tests/test.sh (verifier entry point), tests/verifier.py (verifier implementation), tests/verifier_data.json (verifier input data), metadata.json (source metadata), and task.toml (task configuration). The dataset employs a secure construction conversion method, ensuring that no shell, Python, or Dockerfile source code is inserted, with all values passed via JSON files, a base image fixed as python:3.11-slim-bookworm, and pip specifications validated through strict whitelist regular expressions. The verifier family uses safety_judge (based on LiteLLM with the default openai/gpt-4o-mini model), scoring according to principled criteria, and includes heuristic rejection detection fallbacks. This dataset is suitable for reinforcement learning safety research that requires verifiable rewards, particularly in scenarios integrated with the Harbor framework.

提供机构：

LAION eV

创建时间：

2026-05-18

原始信息汇总

数据集概述：laion/nemotron-gym-safety-v2

基本信息

许可证：CC-BY-4.0
任务类别：强化学习（reinforcement-learning）
语言：英语（en）
标签：harbor, nemotron-gym, rl, verifiable-rewards
数据集规模：10K < n < 100K

数据来源

该数据集是 nvidia/Nemotron-RL-Safety-v1 的 Harbor 格式转换版本，属于 NVIDIA 的 NeMo-Gym 集合。

数据集结构

每条数据包含以下列：

列名	类型	描述
`path`	字符串	确定性短ID（格式：`<family>-<sha256[:12]>.tar.gz`）
`task_binary`	二进制	包含完整Harbor任务的Gzip压缩tar包

tarball 内部布局

解压后的目录结构如下：

instruction.md # 提供给智能体的提示 environment/Dockerfile # python:3.11-slim-bookworm 基础环境 + 特定任务pip依赖 tests/test.sh # 验证器入口（写入 /logs/verifier/reward.txt） tests/verifier.py # 验证器实现（嵌入式、确定性） tests/verifier_data.json # 每个任务的验证器输入（JSON格式，无代码插值） metadata.json # 来源信息：source_dataset, row_index, family 等 task.toml # 标准Harbor任务配置（CPU/内存/超时默认值）

验证器家族

safety_judge（使用 LiteLLM，默认模型为 openai/gpt-4o-mini，依据 principle 评分标准进行评分，并包含启发式拒绝检测回退机制——适用于未设置 OPENAI_API_KEY 的沙箱；同时扫描 /logs/agent 以获取智能体响应，当 /app/response.txt 缺失时使用——v2版本修复了v1中0%的解决率）

转换细节

转换由 OpenThoughts-Agent 中的 data/nemotron_gym 适配器生成，遵循 安全优先设计：

数据集内容从不插入到 shell、Python 或 Dockerfile 源码中，所有值通过 tests/verifier_data.json（JSON格式，运行时解析）传递
基础镜像使用固定名称（python:3.11-slim-bookworm），pip规格经过严格的白名单正则表达式验证
文本字段去除C0/C1控制字符，长度受限，tarball路径经遍历/NUL/绝对路径攻击验证
tarball具有确定性（条目排序、mtime=0、uid/gid=0），生成可重现的字节数据

使用示例

加载数据集： python from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-safety-v2", split="train") print(ds[0]["path"], len(ds[0]["task_binary"]))

运行单个任务： bash python - <<PY import gzip, io, tarfile from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-safety-v2", split="train") row = ds[0] with tarfile.open(fileobj=io.BytesIO(row["task_binary"]), mode="r:gz") as tar: tar.extractall("/tmp/safety-v2-task") PY harbor run -t /tmp/safety-v2-task -e daytona # 或 -e docker

搜集汇总

数据集介绍

构建方式

该数据集源于NVIDIA的Nemotron-RL-Safety-v1，经由OpenThoughts-Agent项目中的适配器转换而成，遵循Harbor格式规范。每个样本包含两个核心字段：path作为确定性短标识符，task_binary存储压缩后的Harbor任务包。任务包内部严格遵循Harbor布局，涵盖指令文件、运行环境、验证脚本及元数据等组件。转换过程采用安全优先策略，所有数据通过JSON文件而非代码插值方式传递给验证器，并辅以基础镜像固定、依赖白名单、文本长度及路径有效性校验等多重防护机制，最终生成具有可复现性的确定性归档文件。

使用方法

用户可通过HuggingFace的datasets库轻松加载数据集，使用load_dataset函数直接获取训练集样本。对于单任务执行，需先将task_binary字段中的二进制数据解压至本地目录，再通过Harbor工具调用相应的运行时环境（如Daytona或Docker）完成任务的运行与评估。该数据集适用于强化学习中的可验证奖励机制研究，可作为安全对齐训练的数据基础，支持研究人员在受控环境中对AI代理的安全行为进行系统性的测试与优化。

背景与挑战

背景概述

该数据集名为nemotron-gym-safety-v2，由LAION机构基于NVIDIA的Nemotron-RL-Safety-v1数据集转换而来，创建时间约为2025年初。核心研究问题聚焦于强化学习（RL）中的安全性验证任务，旨在通过可验证奖励（verifiable-rewards）机制评估智能体在安全约束下的行为表现。作为NVIDIA的NeMo-Gym系列扩展，该数据集在强化学习安全性领域具有重要影响力，为研究社区提供了标准化的测试基准，推动了RL安全性与鲁棒性评估的发展。其Harbor格式的规范设计确保了任务的可复现性与一致性，对相关领域的验证框架构建产生了积极影响。

当前挑战

该数据集面临的挑战包括：1）解决领域问题的挑战：在强化学习中，安全性验证常因环境复杂性与奖励稀疏性而难以有效评估，该数据集通过引入原则驱动的判断准则（principle rubric）和启发式拒绝检测机制，克服了传统方法在识别不安全行为时的局限性，尤其针对v1版本中0%解决率的问题进行了修正。2）构建过程所遇挑战：数据转换需确保安全性与可复现性，包括避免内容注入攻击（如禁止将数据插值到shell或Dockerfile中）、严格限制基础镜像版本（python:3.11-slim-bookworm）并使用白名单验证pip依赖、清洗文本中的控制字符与路径遍历漏洞，以及生成确定性tarball以实现字节级一致的可复现输出。

常用场景

经典使用场景

nemotron-gym-safety-v2数据集在强化学习领域扮演着举足轻重的角色，其经典使用场景聚焦于安全对齐的奖励建模与验证。该数据集被设计为Harbor格式，每个样本包含一个可执行的沙盒任务，内部封装了指令提示、验证器脚本及元数据，从而为训练和评估强化学习智能体提供了一种标准化、可复现的安全验证环境。研究者们可以利用该数据集构建闭环的基于验证奖励的强化学习流程，通过在隔离容器中运行智能体生成的响应并自动计算奖励分数，来引导模型学会规避不安全行为。这一范式尤为适用于需要在复杂模拟环境中培养鲁棒性安全策略的场景，例如对话系统的内容过滤或自动化决策中的伦理约束学习。

解决学术问题

该数据集旨在解决强化学习领域中一个关键的学术挑战：如何将抽象的安全原则转化为可量化的、可自动验证的奖励信号。传统的奖励设计往往依赖于人工定义的规则或启发式算法，难以覆盖多样化的不安全场景，且容易产生奖励黑客攻击。nemotron-gym-safety-v2通过引入基于LiteLLM的裁判模型（如GPT-4o-mini）与原则评分标准，结合启发式拒绝检测回退机制，构建了可判定的验证器家族，使得安全奖励的评估变得既精准又灵活。这一设计有效解决了自动化安全校验中存在的误判和漏检问题，为研究安全对齐的强化学习算法提供了高质量的基准数据，推动了可验证奖励在复杂决策任务中的理论验证与算法创新。

实际应用

在实际应用层面，nemotron-gym-safety-v2数据集为构建安全可控的AI代理系统提供了坚实的操作基础。其标准化的Harbor任务格式支持在Docker或Daytona等容器环境中直接执行，使得企业级AI系统可以无缝集成该数据集进行安全红队测试与合规审核。具体而言，运营者可以通过批量运行数据集中的安全验证任务，自动检测语言模型在面对恶意提示、越狱指令或有害请求时的防御能力，并依据生成的奖励分数优化模型的安全策略。这种自动化评估框架已广泛应用于内容审核工具的开发、智能客服系统的安全护栏设计，以及多模态代理在敏感场景下的行为约束，显著提升了AI系统在部署前的安全性验证效率。

数据集最近研究