five

Nemotron-RL-Agentic-Function-Calling-Pivot-v1

收藏
Hugging Face2026-03-11 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-RL-Agentic-Function-Calling-Pivot-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于通用函数调用的强化学习数据集,通过利用现有的专家工具使用轨迹构建。每个助手步骤的轨迹被作为一个独立的行为克隆问题,策略模型被激励以匹配专家模型的工具调用选择。该数据集作为NVIDIA NeMo Gym框架的一部分发布,用于训练大型语言模型的强化学习环境。数据集采用JSON格式的结构化对话,包含8458条训练记录,每条记录有5个主要字段(trajectory_id、info、responses_create_params、expected_action、agent_ref)。数据集总存储量为训练集389MB,验证集9.5MB。数据收集方法为合成,使用了多个先进的AI模型。该数据集适用于与NeMo Gym一起用于大型语言模型的后期训练,并遵循CC-BY 4.0许可。
提供机构:
NVIDIA
创建时间:
2026-03-06
搜集汇总
数据集介绍
构建方式
在强化学习与工具调用领域,Nemotron-RL-Agentic-Function-Calling-Pivot-v1数据集通过合成方法构建,利用专家模型在工具使用轨迹中生成的示范数据。该数据集将每个助手步骤视为独立的行为克隆问题,激励策略模型模仿专家模型在函数调用选择上的决策。数据生成过程融合了DeepSeek-V3.2、GLM-4.6、GPT-OSS-120b及Kimi-K2-Instruct等多个先进语言模型的输出,确保了轨迹的多样性与质量。
特点
该数据集以结构化JSON格式呈现,每条记录包含轨迹标识、信息字段、响应参数、预期动作及代理参考等五个核心字段,总计涵盖八千余条训练样本。作为NVIDIA NeMo Gym框架的组成部分,其设计紧密贴合强化学习从可验证奖励中学习的范式,专为大规模语言模型的后期训练优化。数据集具备商业使用许可,并依托合成数据生成技术,避免了传统标注流程的局限性。
使用方法
数据集主要配合NVIDIA NeMo Gym框架使用,适用于大规模语言模型的强化学习后训练阶段。开发者可通过加载结构化对话记录,构建基于可验证奖励的强化学习环境,以微调模型在工具调用任务中的决策能力。使用前需确保符合CC-BY 4.0许可条款,并建议结合具体行业场景进行伦理与安全性评估。
背景与挑战
背景概述
在大型语言模型(LLM)的强化学习训练领域,高效的工具调用能力已成为提升模型交互智能的关键研究方向。Nemotron-RL-Agentic-Function-Calling-Pivot-v1数据集由NVIDIA公司于2026年3月11日发布,隶属于其NeMo Gym框架,旨在通过利用专家模型已有的工具使用轨迹,构建一个专注于通用函数调用的强化学习数据集。该数据集的核心研究问题聚焦于如何将复杂的工具调用行为分解为独立的行为克隆任务,从而激励策略模型精准模仿专家模型在每一步的工具选择决策,进而推动LLM在真实场景中自主执行多步骤任务的能力发展,为智能体系统的实用化部署提供了重要的数据支撑。
当前挑战
该数据集致力于解决大型语言模型在复杂环境中进行可靠、准确的工具调用(即函数调用)这一核心挑战,其具体难点在于如何确保模型不仅能理解自然语言指令,还能在动态、多步骤的任务流程中,持续做出与专家决策一致的工具选择和行为序列。在构建过程中,挑战主要源于高质量专家轨迹的合成与标准化:需要协调多个先进模型(如DeepSeek-V3.2、GLM-4.6等)生成多样化且逻辑连贯的交互轨迹,同时确保这些轨迹能被有效转化为结构化的强化学习训练样本,并保持与NeMo Gym框架的兼容性,以实现从可验证奖励中进行强化学习(RLVR)的训练目标。
常用场景
经典使用场景
在强化学习与工具调用领域,Nemotron-RL-Agentic-Function-Calling-Pivot-v1数据集为大型语言模型的后训练提供了关键支持。该数据集通过利用专家模型在工具使用轨迹中的行为,将每个助手步骤构建为独立的行为克隆问题,激励策略模型模仿专家模型的工具调用选择。这一方法在NeMo Gym框架内实现了可验证奖励的强化学习,为模型在复杂任务中学习精准的工具调用策略奠定了数据基础。
解决学术问题
该数据集主要解决了大型语言模型在工具调用任务中策略优化与泛化能力的学术挑战。通过合成专家轨迹数据,它支持行为克隆与强化学习的结合,使模型能够从高质量的示范中学习,减少探索成本并提升任务执行的可靠性。其意义在于推动了可验证奖励强化学习范式的发展,为AI代理在开放域环境中实现稳健、可解释的工具使用提供了实证基础,促进了智能体与外部工具交互的研究进展。
衍生相关工作
围绕该数据集,衍生出了一系列基于NeMo Gym框架的经典研究工作,特别是与NVIDIA Nemotron模型家族的开发紧密相关。这些工作探索了如何利用合成专家轨迹优化大型语言模型的工具调用能力,并在可验证奖励强化学习方向上取得了进展。相关研究进一步扩展了行为克隆与强化学习的融合方法,为多模态模型和语音模型在工具使用场景中的训练提供了借鉴,推动了开源社区在AI代理训练环境建设上的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作