Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1

Name: Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1
Creator: NVIDIA
Published: 2026-03-11 22:36:28
License: 暂无描述

Hugging Face2026-03-11 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为对话式工具使用创建的强化学习数据集，基于现有的专家工具使用轨迹。每个助手步骤被视为独立的行为克隆问题，旨在激励策略模型匹配专家模型的工具调用选择。轨迹涵盖认证、数据查询、服务（如预订、修改、获取折扣等）等多个领域的838个不同场景。数据集采用结构化JSON格式，每条记录包含11个顶级字段，如轨迹ID、响应创建参数、预期动作等。训练集约3.0GB，包含170,320条记录。数据集由NVIDIA Corporation创建，使用DeepSeek和Qwen等模型合成生成，标注则通过GPT-OSS-120B和Qwen3-235B等模型完成。该数据集作为NVIDIA NeMo Gym框架的一部分发布，专用于大型语言模型的后期训练，适用于商业用途，采用CC-BY 4.0许可。

提供机构：

NVIDIA

创建时间：

2026-03-06

搜集汇总

数据集介绍

构建方式

在强化学习与工具调用领域，数据集的构建往往依赖于高质量的专家轨迹。Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1数据集通过利用现有的专家工具使用轨迹，将对话中的每个助手步骤视为独立的行为克隆问题，激励策略模型匹配专家模型的工具调用选择。该数据集覆盖了认证、数据查询、服务预订、折扣获取等多种工具使用场景，并横跨教育科技、IT支持、旅行等838个不同领域，其数据生成与标注均采用合成方法，借助DeepSeek、Qwen等先进大语言模型以及GPT-OSS-120B等模型完成，确保了数据的多样性与复杂性。

使用方法

该数据集主要设计用于与NVIDIA NeMo Gym框架配合，对大型语言模型进行后训练。研究人员或开发者可将数据集导入NeMo Gym环境中，利用其提供的强化学习接口，训练模型学习在多轮对话中有效调用工具完成特定任务。使用前需确保环境配置符合框架要求，数据格式为结构化JSON，可直接加载。在实际应用中，用户应结合自身行业与用例需求，对数据内容进行内部评估，以确保其符合伦理与安全标准，并可通过指定渠道反馈数据质量或安全问题，以促进数据集的持续完善与负责任使用。

背景与挑战

背景概述

在人工智能领域，强化学习与工具调用能力的融合已成为推动智能体迈向实用化的重要方向。Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1数据集由NVIDIA公司于2026年3月11日发布，作为其NeMo Gym框架的核心组成部分，旨在通过专家轨迹构建行为克隆任务，以优化大型语言模型在对话式工具使用中的决策能力。该数据集覆盖了认证、数据查询、服务预订等多样化任务场景，涉及838个不同领域，如教育科技、IT支持与旅行服务，为智能体在复杂现实环境中的工具调用与任务执行提供了高质量的训练资源，显著推动了具身智能与对话系统的发展。

当前挑战

该数据集致力于解决对话式智能体在工具调用中的核心挑战，即如何在多轮交互中准确理解用户意图、选择恰当工具并执行复杂操作序列。构建过程中的主要困难在于如何从现有专家轨迹中提取高质量、多样化的行为样本，并确保其在不同领域间的泛化能力。此外，合成数据的生成依赖于多个先进模型，如DeepSeek-R1-0528与GPT-OSS-120B，这要求严格的流程控制以避免偏差并维持数据的一致性与可靠性，从而为强化学习提供可验证的奖励信号。

常用场景

经典使用场景

在强化学习与大型语言模型工具调用领域，Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1数据集为研究者提供了丰富的专家轨迹数据。该数据集通过将对话中的每个助手步骤构建为独立的行为克隆问题，激励策略模型模仿专家模型在工具调用上的选择，从而广泛应用于训练语言模型在复杂多轮对话中准确使用外部工具。其覆盖了认证、数据查询、预订服务等多样任务，跨越教育科技、IT支持、旅游等838个不同领域，为模型学习跨领域的通用工具调用能力提供了标准化的训练资源。

解决学术问题

该数据集主要解决了强化学习中从人类反馈或专家示范进行高效策略学习的核心难题。通过提供结构化的专家工具使用轨迹，它使研究者能够基于可验证奖励机制，训练语言模型在开放域对话中可靠地执行多步骤工具操作。这有助于克服传统方法中奖励稀疏、样本效率低下的瓶颈，推动了基于验证奖励的强化学习范式在具身智能与对话代理中的应用，为构建可解释、可控制的工具调用系统奠定了数据基础。

实际应用

在实际应用层面，该数据集支撑了智能客服、自动化工作流助手等系统的开发。例如，在旅行预订或IT支持场景中，模型能够通过调用认证接口查询用户数据，并执行预订修改、折扣申请等具体服务操作，显著提升了对话系统的任务完成率与用户体验。其多领域覆盖特性使得训练出的模型具备较强的泛化能力，可快速适配金融、教育、零售等行业的具体业务需求，推动企业级自动化解决方案的落地。

数据集最近研究