five

daVinci-Dev

收藏
github2026-01-26 更新2026-01-27 收录
下载链接:
https://github.com/GAIR-NLP/daVinci-Dev
下载链接
链接失效反馈
官方服务:
资源简介:
用于我们训练配方中的代理原生轨迹(在允许的情况下)。高级组成包括上下文原生轨迹(PR衍生的Python变体)和环境原生轨迹(可执行滚动,测试通过子集)。

Agent-native trajectories (where permissible) are utilized in our training recipe. Its high-level components consist of context-native trajectories (Python variants derived from PRs) and environment-native trajectories (executable rollouts, a subset that has passed tests).
创建时间:
2026-01-23
原始信息汇总

daVinci-Dev 数据集概述

数据集基本信息

  • 数据集名称:daVinci-Dev
  • 发布机构:GAIR-NLP
  • 主要用途:用于智能体式软件工程的大型语言模型训练
  • 访问地址:https://huggingface.co/datasets/GAIR/daVinci-Dev

数据集内容与构成

该数据集包含用于训练模型的智能体原生轨迹。

高级别构成

  • 上下文原生轨迹 $mathcal{D}^{ ext{ctx}}_{ ext{py}}$:从GitHub拉取请求(PR)衍生而来,为Python变体。
  • 环境原生轨迹 $mathcal{D}^{ ext{env}}_{ ext{pass}}$:可执行的运行轨迹,为通过测试的子集。

数据处理管道

项目提供了一个高性能的数据处理管道,用于构建数据集中的上下文原生轨迹部分。

  • 管道位置:项目仓库中的 pipeline/ 目录。
  • 主要功能:调用GitHub API,构建用于生成 $mathcal{D}^{ ext{ctx}}_{ ext{py}}$ 的结构化PR表示。

相关模型

基于此数据集训练并发布的模型包括:

  • daVinci-Dev-72B:最终模型(智能体原生中期训练 + 环境原生监督微调)
  • daVinci-Dev-32B:最终模型(智能体原生中期训练 + 环境原生监督微调)
  • daVinci-Dev-72B-MT:中期训练检查点(智能体原生中期训练后,监督微调前)
  • daVinci-Dev-32B-MT:中期训练检查点(智能体原生中期训练后,监督微调前)

许可证信息

该数据集采用混合许可证发布:

  • PR衍生子集:仅包含被检测为具有宽松许可证的开源仓库中的拉取请求。
  • 可执行运行轨迹子集:衍生自 SWE-rebench 数据集,采用 CC-BY-4.0 许可证。
  • 下游用户需自行确保其使用方式符合相关底层资源的许可证要求。

引用

如需使用本工作,请引用 daVinci-Dev 论文。

搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程智能化发展的背景下,daVinci-Dev数据集的构建采用了创新的双轨迹策略。该数据集通过调用GitHub API,从具有宽松许可证的开源仓库中提取上下文原生的拉取请求轨迹,形成结构化的代码变更序列。同时,结合可执行回滚测试通过的代码片段,构建了环境原生的轨迹子集,确保了数据在真实开发场景中的实用性与可靠性。
使用方法
该数据集可通过Hugging Face平台直接访问,适用于训练和评估面向软件工程的大语言模型。研究人员可利用其提供的代码轨迹进行模型的中期训练与微调,以提升模型在代码生成、问题修复等任务上的性能。数据集附带的高性能处理管道进一步简化了数据预处理流程,支持用户根据实际需求定制化构建类似的代码轨迹数据。
背景与挑战
背景概述
daVinci-Dev数据集由GAIR-NLP团队于近期构建,专注于智能体化软件工程领域。该数据集旨在通过上下文原生和环境原生的轨迹数据,为大语言模型提供针对软件工程任务的中间训练支持,以提升模型在代码生成、问题修复和版本控制等复杂场景中的自主决策与执行能力。其核心研究问题在于如何利用真实世界中的软件协作流程,如GitHub拉取请求(PR)的演变轨迹,来增强模型对软件开发环境的理解与交互,从而推动智能体技术在软件工程自动化方面的应用与发展。
当前挑战
daVinci-Dev数据集所解决的领域挑战在于智能体化软件工程中模型对动态、多步骤开发流程的适应性问题,例如代码审查、测试执行和版本整合等任务需要模型具备连续推理与环境交互能力。在构建过程中,数据集面临数据采集与处理的复杂性挑战,包括从GitHub API高效提取结构化的PR轨迹数据,确保数据许可合规性,以及筛选可执行的测试通过子集以维持数据质量与实用性。这些挑战要求精细的数据工程设计与严格的版权审查流程。
常用场景
经典使用场景
在智能体驱动的软件工程领域,daVinci-Dev数据集通过其上下文原生轨迹与环境原生轨迹的融合,为大型语言模型的代理式训练提供了核心支撑。该数据集最经典的使用场景在于模拟真实软件开发流程中的拉取请求(PR)轨迹,使模型能够学习代码修改、测试执行与问题修复的完整序列,从而在自动化代码生成与软件维护任务中展现出卓越的适应性。
解决学术问题
该数据集有效解决了软件工程智能化研究中长期存在的代理行为与真实环境脱节的问题。通过构建上下文原生轨迹,它捕捉了代码变更的完整上下文依赖关系,而环境原生轨迹则确保了生成代码的可执行性与正确性。这不仅提升了模型在复杂软件任务中的推理能力,还为代理式人工智能在软件开发中的可靠部署奠定了数据基础。
实际应用
在实际应用中,daVinci-Dev数据集能够直接赋能自动化代码审查、智能缺陷修复与持续集成流程优化。例如,在大型开源项目维护中,基于该数据集训练的模型可自动分析PR内容,生成测试用例或提出修改建议,显著降低人工干预成本。同时,其支持的可执行代码轨迹也为教育领域编程辅助工具的开发提供了高质量的训练资源。
数据集最近研究
最新研究方向
在智能体驱动的软件工程领域,daVinci-Dev数据集通过构建上下文原生和环境原生的轨迹数据,为大型语言模型的代理式训练提供了关键支持。该数据集聚焦于从GitHub拉取请求中提取的结构化开发轨迹,结合可执行的代码测试通过子集,旨在增强模型在真实软件开发环境中的理解和生成能力。这一研究方向紧密关联当前人工智能辅助编程的热点,推动了代码生成、自动调试和智能体协作等前沿应用的发展,对提升软件开发的自动化水平与效率具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作