five

DCAgent2/gaia_127_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193800

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/gaia_127_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193800
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: tool_definitions list: - name: function struct: - name: description dtype: string - name: name dtype: string - name: parameters struct: - name: additionalProperties dtype: bool - name: properties struct: - name: code struct: - name: description dtype: string - name: type dtype: string - name: command struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: file_text struct: - name: description dtype: string - name: type dtype: string - name: insert_line struct: - name: description dtype: string - name: type dtype: string - name: is_input struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: message struct: - name: description dtype: string - name: type dtype: string - name: new_str struct: - name: description dtype: string - name: type dtype: string - name: old_str struct: - name: description dtype: string - name: type dtype: string - name: path struct: - name: description dtype: string - name: type dtype: string - name: security_risk struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: task_list struct: - name: description dtype: string - name: items struct: - name: additionalProperties dtype: bool - name: properties struct: - name: id struct: - name: description dtype: string - name: type dtype: string - name: notes struct: - name: description dtype: string - name: type dtype: string - name: status struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: title struct: - name: description dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: thought struct: - name: description dtype: string - name: type dtype: string - name: timeout struct: - name: description dtype: string - name: type dtype: string - name: view_range struct: - name: description dtype: string - name: items struct: - name: type dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 151379292 num_examples: 379 download_size: 151097431 dataset_size: 151379292 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自NVIDIA Nemotron-3系列中一款经过优化的Nano 30B A3B BF16模型在特定时间节点的输出,通过系统性地收集模型在与复杂指令交互过程中生成的对话、工具调用及结果反馈,构建出包含379条训练样本的高质量微调数据集。每条样本均涵盖多轮对话记录、agent标识、模型元信息、任务描述、工具定义及验证器输出,其工具定义部分细致刻画了函数调用的完整参数结构,涵盖代码执行、文件操作、任务管理等多种能力维度,确保数据能够全面覆盖智能体在实践场景中的行为模式。
特点
数据集展现出显著的复杂性与结构化特征。其对话内容由系统、用户、工具与助手等多角色交替构成,反映了多步骤推理与工具协同的典型智能体交互模式。工具定义部分详尽枚举了包括file_text、security_risk、task_list等在内的多项功能接口,每个接口均配备精准的参数描述与枚举约束,使得数据不仅呈现模型输出,更揭示了底层决策逻辑。此外,verifier_output字段的存在提供了结果验证维度,赋予了数据集作为评测benchmark的潜在价值。
使用方法
该数据集主要适用于大语言模型在智能体任务场景下的指令微调与能力评估。研究人员可直接加载train分片中的多轮对话结构,将conversations字段作为训练输入,利用model、task等元信息进行条件化训练。工具定义部分可作为结构化知识增强模型函数调用能力,而verifier_output则可用于实现结果导向的强化学习策略。建议在部署时参照原始参数约束,将数据依照episode与run_id分组以模拟完整任务流,从而充分挖掘该数据集在复杂推理与工具使用领域的训练潜力。
背景与挑战
背景概述
在多智能体协作与工具调用日益成为大语言模型核心能力落地的关键场景之际,高质量、结构化的交互数据集显得尤为珍贵。该数据集由NVIDIA于2026年4月30日创建,基于其先进的Nemotron-3-Nano-30B-A3B-BF16模型生成,旨在捕获智能体在复杂环境中执行编程与系统管理任务时的完整对话轨迹。核心研究问题聚焦于如何利用结构化工具定义与多轮交互来引导模型精准完成如代码编辑、文件操作及任务调度等细粒度操作。该数据集以其精细的JSON Schema定义工具参数、涵盖安全风险评估与任务列表管理等高级特性,为多智能体协作领域提供了极具价值的训练与评估基准,对推动自主智能体在现实应用中的可控性与鲁棒性研究具有重要意义。
当前挑战
当前领域面临的挑战在于如何使语言模型可靠地理解和调用结构化工具。数据集所解决的领域问题核心是智能体在执行多步骤编程任务时的工具使用能力,特别是涉及参数嵌套、枚举值约束及多类型输出时的上下文依赖与状态一致性维护。构建过程中,挑战在于设计涵盖大量细粒度参数(如code、command、file_text等)的泛化性工具定义模板,并确保模型生成的工具调用能够准确映射到真实的系统操作。此外,包含安全风险枚举(security_risk)与任务依赖关系(task_list)的高级交互场景,增加了对话轨迹中逻辑连贯性验证的难度,要求数据集在有限样本下充分覆盖工具调用的边界条件与异常处理路径。
常用场景
经典使用场景
在人工智能与代码生成交汇的前沿领域,该数据集主要服务于基于对话的智能体(Agent)的微调与评估。其核心场景聚焦于提升大语言模型执行复杂软件开发任务的能力,尤其是那些涉及文件编辑、任务管理及安全风险判断的多步骤操作。研究者常利用此数据集训练模型按照特定格式——如思考、行动和观察循环——与外部环境(如终端或文件系统)高效交互,从而模拟出具备自主编程与调试能力的数字助手。
解决学术问题
该数据集精准回应了当前学术界面临的若干关键挑战:如何让语言模型超越简单问答,实现具备工具调用与结构化推理的智能行为。通过提供包含细粒度工具定义(如代码执行、字符串替换、文件查看)的对话样例,它助力研究者探索模型在复杂指令遵循、多步规划及结果验证上的能力边界。其意义在于,它为评测和优化语言模型的“具身化”推理能力提供了标准化基准,推动了从静态文本理解到动态环境交互的学术范式转型。
衍生相关工作
以此为根基,学界与工业界衍生出一系列卓有成效的探索工作。例如,研究者基于该数据集的对话结构提出了“行动链推理”框架,有效提升了模型在开放式编程任务中的成功率;另有工作聚焦于数据集中丰富的工具调用记录,进而发展出专门用于鲁棒性评测的对抗样本生成方法。此外,该数据集的“任务-工具-结果”三元组形式也为后续构建能够通过试错学习进行自我纠错的迭代式智能体系统提供了关键的理论启示与实践蓝图。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务