nemotron-gym-identity-following
收藏Hugging Face2026-05-16 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-identity-following
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是nvidia/Nemotron-RL-Identity-Following-v1数据集的Harbor格式转换版本,属于NVIDIA NeMo-Gym集合的一部分。它专为强化学习任务设计,特别关注身份遵循(identity-following)场景,数据规模在1万到10万样本之间。每个数据样本包含两个主要字段:path字段为确定性短ID字符串(格式为`<family>-<sha256[:12]>.tar.gz`),task_binary字段为包含完整Harbor任务的gzip压缩tar包二进制数据。tar包内部遵循标准的Harbor任务布局,包括instruction.md(展示给智能体的提示)、environment/Dockerfile(基于python:3.11-slim-bookworm的基础镜像及任务特定的pip依赖)、tests/test.sh(验证器入口点)、tests/verifier.py(确定性嵌入式验证器实现)、tests/verifier_data.json(每个任务的验证器输入JSON数据)、metadata.json(数据来源、行索引、家族等元数据)以及task.toml(标准Harbor任务配置)。数据集转换过程采用安全构建原则:内容不插值到shell、Python或Dockerfile源代码中,所有值通过tests/verifier_data.json流动;基础镜像名称固定;pip规范通过严格允许列表正则表达式验证;文本字段去除C0/C1控制字符并限制长度;tarball路径经过遍历/NUL/绝对路径攻击验证;tarball具有确定性(排序条目、mtime=0、uid/gid=0),确保字节可重现。验证器家族为llm_judge,使用LiteLLM(默认openai/gpt-4o-mini模型),针对特定原则(principle)角色进行评分。数据集适用于需要可验证奖励的强化学习研究和开发,特别是那些需要安全、可重现任务环境的场景。
This dataset is a Harbor format conversion version of the nvidia/Nemotron-RL-Identity-Following-v1 dataset, part of the NVIDIA NeMo-Gym collection. It is specifically designed for reinforcement learning tasks, with a focus on identity-following scenarios, and has a data scale ranging from 10,000 to 100,000 samples. Each data sample includes two main fields: the path field is a deterministic short ID string (format: `<family>-<sha256[:12]>.tar.gz`), and the task_binary field contains gzip-compressed tar package binary data for complete Harbor tasks. The tar package internally follows the standard Harbor task layout, including instruction.md (prompt displayed to the agent), environment/Dockerfile (base image based on python:3.11-slim-bookworm and task-specific pip dependencies), tests/test.sh (verifier entry point), tests/verifier.py (deterministic embedded verifier implementation), tests/verifier_data.json (verifier input JSON data for each task), metadata.json (metadata such as data source, row index, family), and task.toml (standard Harbor task configuration). The dataset conversion process adopts security build principles: content is never interpolated into shell, Python, or Dockerfile source code; all values flow through tests/verifier_data.json; the base image name is fixed; pip specifications are validated via strict allowlist regular expressions; text fields have C0/C1 control characters removed and length limits; tarball paths are validated against traversal/NUL/absolute path attacks; tarballs are deterministic (sorted entries, mtime=0, uid/gid=0), ensuring byte reproducibility. The verifier family is llm_judge, using LiteLLM (default model: openai/gpt-4o-mini) to score based on specific principle roles. The dataset is suitable for reinforcement learning research and development requiring verifiable rewards, particularly in scenarios that demand secure and reproducible task environments.
提供机构:
LAION eV
创建时间:
2026-05-16
搜集汇总
数据集介绍

构建方式
该数据集源自NVIDIA的Nemotron-RL-Identity-Following-v1数据集,经过Harbor格式的转换而来。转换过程由OpenThoughts-Agent框架中的特定适配器执行,严格遵循安全优先的构建原则:所有数据集内容均通过静态JSON文件传递,避免直接嵌入脚本或配置文件;基础镜像采用名称固定的python:3.11-slim-bookworm,并经过严格的依赖白名单校验;文本字段被滤除控制字符并限制长度,同时所有路径均经过遍历攻击、空字节及绝对路径攻击的验证。最终生成的tarball通过排序条目、统一时间戳与权限等方式实现字节级的确定性输出。
特点
该数据集专为强化学习场景中的身份跟随任务而设计,每一条样本均封装为完整的Harbor任务包,包含指令文件、Docker运行环境、测试脚本及奖励验证器。其核心特色在于内置了LLM裁判机制,默认使用LiteLLM框架调用gpt-4o-mini模型,依据预设的persona原则对智能体行为进行评判并输出可验证的奖励信号。每个任务包结构标准、自包含,便于在分布式或本地环境中进行解耦测试与评估。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,每条记录包含一个短标识符路径与二进制任务包。任务包为gzipped tar格式,内含完整的Harbor任务结构。使用时可借助Python的tarfile模块解压到指定目录,再通过Harbor的run命令搭配Docker或Daytona等执行后端启动任务。任务运行后,验证器会自动输出奖励分数至指定日志文件,便于与强化学习训练流程集成。
背景与挑战
背景概述
nemotron-gym-identity-following数据集由LAION团队于2024年基于NVIDIA发布的Nemotron-RL-Identity-Following-v1进行转换和构建,旨在为强化学习(Reinforcement Learning)领域提供一个安全、可复现且标准化的任务验证环境。该数据集聚焦于身份跟随(Identity Following)任务,即在给定指令下确保智能体行为与预设身份或原则保持一致,是NVIDIA NeMo-Gym集合的重要组成部分。其核心研究问题在于如何通过可验证的奖励信号(verifiable rewards)来训练语言模型严格遵循特定身份约束,从而提升模型在复杂对话和代理任务中的可信度与可控性。该数据集的提出为强化学习中的偏好对齐与安全性研究提供了新的基准,尤其在多步推理和隐式约束满足方面具有显著影响力,推动了从静态评测向动态可执行任务环境的演进。
当前挑战
该数据集所解决的领域问题挑战在于:传统强化学习训练中,语言模型容易偏离预设身份或原则,导致生成内容不一致或缺乏可控性,而现有的奖励模型往往依赖人工标注或近似评估,难以精确衡量身份遵循的符合度。构建过程中的挑战则包括:如何将原始数据集中的指令、环境与验证器安全地容器化,以避免代码注入和路径遍历攻击;如何确保转换后的任务具有确定性(deterministic)和可复现性,例如通过固定tar打包的条目顺序和时间戳;以及如何设计一个既能解析JSON数据又不引入执行风险的严格验证框架,最终通过隔离的Docker环境和LiteLLM大模型评判实现稳定、公正的奖励打分。
常用场景
经典使用场景
在强化学习与偏好对齐的交叉领域中,nemotron-gym-identity-following数据集扮演着评估与训练语言模型身份遵循能力的核心角色。该数据集通过精心设计的任务框架,要求智能体在交互过程中严格遵循预设的身份指令与人格原则,从而实现对模型行为可控性的精细调校。其经典使用场景集中于基于可验证奖励的强化学习流程,研究者可将任务打包为标准化的Harbor格式,利用Docker环境执行可复现的智能体轨迹评估,进而驱动模型在复杂对话中保持身份一致性。
实际应用
在实际产业落地中,该数据集赋能了多项需要严格身份定制的对话系统,例如企业客服机器人、角色扮演应用及个性化助手等场景。通过利用该数据集训练的语言模型,开发者能够确保智能体在服务过程中持续遵循品牌语气、安全准则或特定角色设定,避免身份漂移带来的用户体验下降。此外,其Harbor格式的可迁移性,使得从学术验证到云端部署的衔接异常顺畅,显著降低了RL训练流水线中环境准备与测试复现的成本,为大规模工业级强化学习应用铺平了道路。
衍生相关工作
基于该数据集的发布,学术界已涌现出一系列标志性工作,尤其是在可验证奖励体系与身份对齐策略设计层面。例如,原始数据集的构建源自NVIDIA NeMo-Gym系列,其衍生研究深入探讨了基于LiteLLM的自动评判(LLM Judge)机制,验证了GPT-4o-mini作为奖励模型在身份遵循任务中的有效性。后续工作进一步拓展了该框架,将确定性奖励与多目标优化结合,探索了身份约束下的强化学习泛化性边界,为下一代对齐算法奠定了坚实的基础设施与评估标准。
以上内容由遇见数据集搜集并总结生成



