five

DCAgent2/bfcl_parity_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193708

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/bfcl_parity_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193708
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: tool_definitions list: - name: function struct: - name: description dtype: string - name: name dtype: string - name: parameters struct: - name: additionalProperties dtype: bool - name: properties struct: - name: code struct: - name: description dtype: string - name: type dtype: string - name: command struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: file_text struct: - name: description dtype: string - name: type dtype: string - name: insert_line struct: - name: description dtype: string - name: type dtype: string - name: is_input struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: message struct: - name: description dtype: string - name: type dtype: string - name: new_str struct: - name: description dtype: string - name: type dtype: string - name: old_str struct: - name: description dtype: string - name: type dtype: string - name: path struct: - name: description dtype: string - name: type dtype: string - name: security_risk struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: task_list struct: - name: description dtype: string - name: items struct: - name: additionalProperties dtype: bool - name: properties struct: - name: id struct: - name: description dtype: string - name: type dtype: string - name: notes struct: - name: description dtype: string - name: type dtype: string - name: status struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: title struct: - name: description dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: thought struct: - name: description dtype: string - name: type dtype: string - name: timeout struct: - name: description dtype: string - name: type dtype: string - name: view_range struct: - name: description dtype: string - name: items struct: - name: type dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 35079475 num_examples: 368 download_size: 34763484 dataset_size: 35079475 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对NVIDIA Nemotron 3 Nano 30B A3B BF16模型在BFCL Parity任务上的推理结果进行系统性记录与整理。构建过程中,精心设计了包含多轮对话、工具定义及函数调用参数的完整交互记录,每条数据均标注了模型来源、运行时间、任务类型及实验标识。数据以结构化的JSON格式存储,确保字段间逻辑关联紧密,为后续分析与评估提供了坚实基础。
特点
数据集的核心特色在于其高度结构化的对话与工具调用数据,每一条样本均包含详尽的对话历史、函数定义及参数细节,覆盖了代码操作、文件管理、任务调度等多种实用场景。其中,工具定义部分对参数进行了细粒度的枚举与描述,如'security_risk'与'view_range'等字段,体现了对复杂任务执行过程的精准刻画。此外,数据集还记录了验证器输出与最终结果,便于评估模型性能,使其成为研究工具增强型语言模型的宝贵资源。
使用方法
使用该数据集时,可将其作为训练或评估面向工具调用与代码辅助任务的语言模型的基准数据。通过解析'conversations'字段获取多轮交互,利用'tool_definitions'提取函数原型与参数约束,结合'result'与'verifier_output'进行模型输出的效果验证。数据按训练集统一组织,共368条样本,适合用于小样本学习、微调或零样本评估场景,尤其适用于研究模型在执行结构化任务时的推理与调用能力。
背景与挑战
背景概述
该数据集由NVIDIA团队于2025年4月构建,聚焦于大规模语言模型在复杂工具调用场景下的行为对齐研究。核心研究问题在于评估与优化语言模型在遵循结构化指令、调用多参数函数及处理嵌套工具定义时的能力。通过对Nemotron系列模型(特别是Nano 30B与3B混合架构)的对话轨迹进行精细标注,数据集为分析模型在交互式编程与任务执行中的决策逻辑提供了重要基准。该工作的发布有望推动智能体系统在自动化代码编辑、安全风险识别等实际应用中的鲁棒性发展。
当前挑战
领域内挑战在于如何使语言模型精准理解高度结构化的工具定义并生成符合语法与语义约束的调用序列,例如在多参数函数的必填字段与枚举值处理上易产生偏差。构建过程中,数据采集面临模拟真实用户多轮交互的复杂性,需平衡工具调用的多样性(如路径操作、消息传递)与任务覆盖的全面性,同时确保标注结果与验证器输出的一致性,以降低噪声对模型微调效果的影响。
常用场景
经典使用场景
在人工智能与自然语言处理的前沿领域,以智能体为核心的交互式系统正逐渐成为研究焦点。bfcl_parity_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193708数据集专为评估和微调语言模型在工具调用与任务执行场景下的表现而设计。其经典使用场景聚焦于多轮对话中模型依据给定的工具定义(如代码编辑、文件操作、任务列表管理等)生成精准的调用参数,从而模拟真实世界中智能助手与软件环境的复杂交互过程。研究者可借助该数据集训练模型理解结构化工具文档,并输出符合格式要求的参数列表,例如通过'command'或'path'字段完成特定操作,为后续的自动化代码生成与系统控制奠定基础。
衍生相关工作
围绕此类工具调用数据集,学术界已衍生了多项具有影响力的工作。一方面,研究团队基于其对话结构与工具规范,开发了专用的神经符号推理架构,旨在增强模型对函数签名与依赖关系的理解;另一方面,相关元学习算法的提出使得模型能快速适应新增工具类型,突破了固定API集合的性能瓶颈。此外,该数据集还催生了诸多关于安全对齐的研究,重点关注模型如何在使用'security_risk'字段时规避高风险操作(如执行未知命令)。这些衍生工作共同织就了工具增强型语言模型的研究网络,推动了人工智能从被动问答向主动赋能转型的进程。
数据集最近研究
最新研究方向
该数据集聚焦于工具增强型大语言模型的智能体对齐与行为一致性验证,其核心在于通过结构化的函数调用框架(如code、command、file_text等参数)评估模型在多任务场景下的指令遵循能力。当前前沿方向包括利用此类精细化标注数据训练具备高效工具编排与安全管控能力的Agent系统,尤其是针对代码生成、文件操作、任务调度等高危操作的错误率抑制与可解释性提升。与近期LLM工具调用安全漏洞、Agent自主决策失控等热点事件相呼应,该数据集为构建可信赖的智能体提供了关键的基准评估与训练素材,推动了从单纯语言建模向可验证、可审计的智能协作范式的演进。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务