five

DCAgent2/aider_polyglot_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193641-traces

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/aider_polyglot_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193641-traces
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: tool_definitions list: - name: function struct: - name: description dtype: string - name: name dtype: string - name: parameters struct: - name: additionalProperties dtype: bool - name: properties struct: - name: code struct: - name: description dtype: string - name: type dtype: string - name: command struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: file_text struct: - name: description dtype: string - name: type dtype: string - name: insert_line struct: - name: description dtype: string - name: type dtype: string - name: is_input struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: message struct: - name: description dtype: string - name: type dtype: string - name: new_str struct: - name: description dtype: string - name: type dtype: string - name: old_str struct: - name: description dtype: string - name: type dtype: string - name: path struct: - name: description dtype: string - name: type dtype: string - name: security_risk struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: task_list struct: - name: description dtype: string - name: items struct: - name: additionalProperties dtype: bool - name: properties struct: - name: id struct: - name: description dtype: string - name: type dtype: string - name: notes struct: - name: description dtype: string - name: type dtype: string - name: status struct: - name: description dtype: string - name: enum list: string - name: type dtype: string - name: title struct: - name: description dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: thought struct: - name: description dtype: string - name: type dtype: string - name: timeout struct: - name: description dtype: string - name: type dtype: string - name: view_range struct: - name: description dtype: string - name: items struct: - name: type dtype: string - name: type dtype: string - name: required list: string - name: type dtype: string - name: type dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 179017686 num_examples: 674 download_size: 173246144 dataset_size: 179017686 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过记录aider_polyglot智能体与NVIDIA Nemotron 3 Nano 30B A3B BF16模型在2026年4月30日交互过程中产生的轨迹构建而成。每条样本包含多轮对话(conversations),其中每轮对话由角色(role)和内容(content)构成,并附加了智能体名称(agent)、模型规格(model)与提供商(model_provider)、任务标识(task)、运行批次(episode和run_id)等元信息。尤为关键的是,数据集中详尽记录了每次交互所使用的工具定义(tool_definitions),包括函数描述、名称、参数结构(如code、command、file_text、security_risk等),以及最终的执行结果(result)与验证器输出(verifier_output),从而为复现和分析模型在编程辅助场景中的行为提供了结构化且语义丰富的原始素材。
特点
该数据集的核心特点在于其细粒度的交互记录与丰富的工具调用指令集。每个样本不仅囊括了多轮人机对话的完整上下文,还包含了模型为完成编程任务所调用的各类工具参数,如代码修改(code)、文件操作(file_text)、字符串替换(old_str/new_str)、任务列表管理(task_list)及安全风险评估(security_risk)等,充分反映了智能体在真实编程协作中的决策过程。此外,数据集记录了每个样本的验证器输出(verifier_output),可用于评估模型生成结果的质量与正确性。共计674条训练样本,涵盖多种编程任务场景,为研究者深入分析模型在复杂工具调用中的推理与执行能力提供了坚实的基础。
使用方法
该数据集以HuggingFace Datasets格式存储,包含单一训练集(train),共674个样本,总数据量约179 MB。用户可通过HuggingFace的datasets库直接加载,使用load_dataset('aider_polyglot_NVIDIA_Nemotron_3_Nano_30B_A3B_BF16_20260430_193641-traces')命令即可获取数据。每条样本中的conversations字段为多轮对话列表,研究人员可提取其中的role和content字段用于对话建模;tool_definitions字段则提供了模型调用的函数定义及参数细节,适合用于工具调用推理或智能体行为分析。此外,借助result和verifier_output字段,可以开展对模型输出质量的自动化评估与对比研究。
背景与挑战
背景概述
在大型语言模型(LLM)与软件工程深度融合的背景下,代码生成与智能编程助手领域取得了显著进展。该数据集由NVIDIA研究团队于2025年4月30日创建,聚焦于通过NVIDIA Nemotron 3 Nano 30B A3B BF16模型驱动的多语言代码生成与调试交互轨迹。数据集包含674条训练样本,每条样本记录了完整的对话历史、工具调用定义及执行结果,旨在捕捉LLM在解决多语言编程任务时的决策过程与错误修复策略。这一资源为理解模型在复杂编程任务中的行为提供了宝贵视角,推动了可复现智能编程代理研究的发展,对评估和改进LLM驱动的代码生成系统具有重要参考价值。
当前挑战
该数据集面临的核心挑战在于解决领域内的多语言代码生成与自主修复问题。现有模型在跨语言代码生成中常出现语法错误、逻辑缺失或对特定语言生态系统理解不足的问题,而数据集通过精细化的工具调用定义(如文件编辑、命令执行、安全风险评估)尝试模拟人类开发者与工具的交互过程,但样本数量有限(仅674条)且覆盖任务类型不明确,可能限制模型泛化能力的提升。此外,数据集的构建涉及复杂交互轨迹的采集与结构化,如何确保工具调用序列的语义一致性、避免冗余或不安全的操作,以及如何有效验证生成结果的正确性与运行时稳定性,均是构建过程中亟待克服的难点。
常用场景
经典使用场景
在人工智能与软件工程的交叉领域,代码生成与自动编程已成为研究热点。该数据集记录了多轮人机对话中智能体执行代码编辑指令的完整轨迹,其核心应用场景在于训练和评估能够理解复杂编程指令、进行上下文感知的代码修改与任务规划的语言模型。研究者可利用其中细粒度的函数调用参数(如文件路径、代码片段、插入位置等)来构建工具增强型代理,使其掌握从解析自然语言需求到精准操作代码库的端到端能力。这一经典使用范式为打造真正可编程的AI助手奠定了数据基础。
解决学术问题
该数据集直面当前大语言模型在**程序合成与代码编辑**领域面临的核心挑战:如何理解模糊或结构化的编程指令,并处理需要多步推理和文件操作的复杂任务。通过提供包含`tool_definitions`、`verifier_output`及完整对话历史的实例,它解决了学术研究中缺乏高质量、多轮交互式编程跟踪数据的问题。数据集中对`security_risk`、`timeout`等参数的记录,进一步推动了关于代码执行安全性、任务规划效率与错误恢复机制的研究。其意义在于,它将编程问题从单句生成推进到动态、多步的交互式对话层面,为开发更可靠、更安全的自动化编程系统提供了关键的研究资源。
衍生相关工作
受此数据集特性的启发,学术界已衍生出多个方向的研究工作。一方面,研究者利用其`tool_definitions`结构探索**结构化工具调用(Tool-Use)与函数生成**的范式,推动了如Toolformer、Gorilla等模型在API调用能力上的改进。另一方面,数据集中`verifier_output`的存在催生了对**代码正确性验证**与**迭代自纠正**机制的深入研究,相关论文聚焦于如何让模型基于执行反馈调整策略。此外,围绕`task_list`与多步规划字段,衍生出关于**层次化任务分解(Hierarchical Task Planning)**的系列工作,这些研究共同勾勒出从简单代码补全到自主编程代理的技术演进路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作