Nemotron-Agentic-v1
收藏Hugging Face2025-12-15 更新2025-12-16 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-Agentic-v1
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-Agentic-Tool-Use-v1数据集旨在增强模型作为交互式、使用工具的代理的能力。它专注于多轮对话,其中语言模型分解用户目标,决定何时调用工具,并对工具输出进行推理,以可靠且安全地完成任务。该数据集包含两个子集:交互式代理和工具调用。交互式代理子集包含通过模拟三个角色(用户、代理和工具执行环境)创建的合成多轮轨迹,确保高质量和一致性。工具调用子集使用类似方法生成,涉及公开可用数据集的工具集和模拟对话。数据集适用于商业用途,可用于监督微调、数据增强和评估模型。
提供机构:
NVIDIA
创建时间:
2025-12-14
原始信息汇总
Nemotron-Agentic-Tool-Use-v1 数据集概述
数据集基本信息
- 数据集名称: Nemotron-Agentic-Tool-Use-v1
- 所有者: NVIDIA Corporation
- 创建日期: 2025年12月3日
- 最后修改日期: 2025年12月3日
- 许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
- 语言: 英语
- 商业使用: 已准备好用于商业用途
数据集描述与目的
该数据集旨在增强模型作为交互式、使用工具的智能体的能力。其侧重于多轮对话,其中语言模型需分解用户目标、决定何时调用工具,并对工具输出进行推理,以可靠且安全地完成任务。
数据集构成与内容
数据集包含两个子集,总计335,122个样本。
1. Interactive Agent 子集
- 样本数量: 19,028
- 内容描述: 包含用于对话式工具使用的合成多轮轨迹。通过使用大型语言模型模拟三个角色生成:被赋予任务的用户、被指示帮助完成任务的智能体,以及对智能体工具调用做出响应的工具执行环境。每个轨迹都捕获了这些实体之间的完整交互。
- 质量控制: 使用单独的语言模型作为评判员对数据进行评分和过滤,移除任何步骤不一致、不连贯或使用错误工具的轨迹。
- 生成与评判模型: 使用 Qwen3-235B-A22B-Thinking-2507, Qwen3-32B, GPT-OSS-120B, 和 Qwen3-235B-A22B-Instruct-2507 生成合成交互并支持评判过程。
2. Tool Calling 子集
- 样本数量: 316,094
- 内容描述: 通用工具调用子集,其生成方法与 Interactive Agent 子集类似。从公开可用的数据集中收集工具集,并模拟涉及工具使用的对话。
- 生成与评判模型: 使用 Qwen3-235B-A22B-Thinking-2507 和 Qwen3-235B-A22B-Instruct-2507 进行对话模拟和轮次级评判。
- 用户模拟: 用户模拟器LLM的种子来自数据集 nvidia/Nemotron-Personas-USA (https://huggingface.co/datasets/nvidia/Nemotron-Personas-USA)。
数据集技术规格
- 数据收集方法: 混合(人工、合成、自动化)
- 标注方法: 混合(人工、合成、自动化)
- 模态: 文本
- 格式: JSONL
- 结构: 文本 + 元数据
- 总磁盘大小: 约 5.5 GB
预期用途
本数据集适用于开发和训练用于智能体工作流和对话式工具使用的模型的LLM工程师和研究团队。适用于监督微调、数据增强以及对必须进行规划、调用工具并对多步交互进行推理,同时与环境中的用户和可用工具保持一致的模型进行评估。这些轨迹可用于训练端到端使用工具的助手,构建和基准测试工具使用规划器或控制器,以及研究多角色智能体设置的鲁棒性。
伦理考量
NVIDIA认为可信AI是一项共同责任,并已制定政策和实践以支持广泛的AI应用开发。开发者在根据服务条款下载或使用时,应与其内部开发团队合作,确保该数据集满足相关行业和用例的要求,并解决不可预见的产品误用问题。
搜集汇总
数据集介绍

构建方式
在智能体与工具调用研究领域,数据集的构建方法直接影响模型的学习效果。Nemotron-Agentic-v1数据集采用合成生成与自动化过滤相结合的策略,通过大型语言模型模拟用户、智能体及工具执行环境三个角色,生成多轮对话轨迹。为确保数据质量,引入独立的语言模型作为评判者,对每一步交互进行一致性、连贯性与工具使用正确性的评分与筛选,最终形成强调可靠性与目标对齐的高质量交互数据。
特点
该数据集在智能体工具使用任务中展现出鲜明的技术特色。其核心在于包含交互式智能体与通用工具调用两个子集,分别聚焦于多轮对话轨迹与广泛工具调用场景。数据集规模庞大,总计超过33万条样本,涵盖多样化的用户任务与工具组合。通过引入角色模拟与自动化评判机制,数据在逻辑一致性与任务完成度方面具有较高保障,为模型训练提供了丰富且结构化的学习资源。
使用方法
针对智能体工作流与对话式工具使用的研究需求,该数据集为模型开发提供了直接的应用路径。研究者可将其用于监督微调,增强模型在任务分解、工具调用及多步推理方面的能力。数据中的多轮轨迹适用于端到端工具使用助手的训练,也可用于构建与评估工具使用规划器或控制器。此外,数据集支持对多角色智能体设置的鲁棒性研究,为相关领域的模型评测与比较奠定基础。
背景与挑战
背景概述
在人工智能迈向通用智能体的演进浪潮中,赋予大型语言模型以工具调用与多轮交互为核心的自主任务执行能力,已成为前沿研究的核心议题。Nemotron-Agentic-v1数据集由NVIDIA公司于2025年12月创建,旨在系统性地增强模型作为交互式工具使用智能体的性能。该数据集聚焦于模拟用户、智能体与工具环境三者间的多轮对话轨迹,通过合成数据生成与严格的质量评判机制,致力于解决智能体在复杂任务中分解目标、决策工具调用、并基于工具输出进行可靠推理的关键研究问题。其构建为面向智能体工作流的模型训练与评估提供了高质量资源,对推动对话式工具使用与自主智能体技术的发展具有显著影响力。
当前挑战
该数据集旨在应对智能体领域中的核心挑战:如何使模型在开放、动态的多轮交互中,持续保持目标对齐、工具选择的精确性以及推理的连贯性。具体而言,其解决的领域问题涉及复杂任务规划与可靠工具使用的集成,要求模型不仅能理解用户意图,还需在不确定的工具反馈中进行稳健决策。在构建过程中,挑战主要集中于合成数据的高质量生成与一致性保障。尽管采用了先进的大型语言模型进行多角色模拟与轨迹生成,但确保每一步行动符合各角色目标、避免不一致或工具误用,仍需依赖额外的模型进行评判与过滤,这一过程对计算资源与评判准则的可靠性提出了较高要求。
常用场景
经典使用场景
在智能体与工具调用研究领域,Nemotron-Agentic-v1数据集为训练语言模型作为交互式工具使用代理提供了经典范例。该数据集通过模拟多轮对话轨迹,其中模型需分解用户目标、决策工具调用时机,并基于工具输出进行推理,以可靠且安全地完成任务。这一场景广泛应用于构建端到端的工具调用助手,强化模型在复杂工作流中的规划与执行能力,为开发具备自主交互能力的智能系统奠定数据基础。
解决学术问题
该数据集致力于解决智能体研究中工具调用与多步推理的协同难题。传统方法在分解任务、选择工具及处理动态环境反馈时往往存在脱节,Nemotron-Agentic-v1通过合成的高质量多轮交互数据,为模型提供了学习目标对齐、工具一致性及推理连贯性的训练资源。其意义在于推动了可靠对话式工具使用范式的发展,为评估智能体在开放域任务中的稳健性与安全性设立了新基准。
衍生相关工作
基于该数据集衍生的经典工作主要集中在智能体架构优化与评估框架构建。研究者利用其多轮轨迹数据训练端到端的工具调用模型,如开发具备规划能力的对话控制器;同时,该数据集也为基准测试提供了丰富场景,用于评估智能体在工具选择、错误恢复及长期推理方面的性能。这些工作进一步拓展了可靠工具使用智能体的研究方向,并促进了开源社区在合成数据生成与质量评判方法上的创新。
以上内容由遇见数据集搜集并总结生成



