five

AGENTPACK

收藏
arXiv2025-09-26 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/nuprl/AgentPack
下载链接
链接失效反馈
官方服务:
资源简介:
AGENTPACK是一个由Claude Code、OpenAI Codex和Cursor Agent在公共GitHub项目中共同编辑的代码更改语料库,共有130万条代码更改。数据集涵盖了从2025年4月至8月中旬的公共GitHub项目。AGENTPACK的数据集创建过程涉及从GitHub公共时间线中识别、收集和整理由软件工程代理编写的代码更改。数据集内容包含详细的自然语言描述,这些描述往往比人类自己编写的描述更详细,并且每个项目通常跨越多个文件。该数据集旨在用于训练模型进行代码编辑,并展示了使用公共数据从软件工程代理中训练未来代码编辑模型的潜力。

AGENTPACK is a corpus of code edits co-authored by Claude Code, OpenAI Codex, and Cursor Agent across public GitHub repositories, containing a total of 1.3 million code change entries. The dataset spans public GitHub repositories from April to mid-August 2025. The curation process of AGENTPACK involves identifying, collecting, and organizing code edits authored by software engineering agents from GitHub public timelines. The dataset includes detailed natural language descriptions, which are often more comprehensive than those written by human developers, and each project typically spans multiple files. This dataset is designed for training code editing models, and demonstrates the potential of training future code editing models using public data sourced from software engineering agents.
提供机构:
东北大学波士顿分校,美国
创建时间:
2025-09-26
搜集汇总
数据集介绍
main_image_url
构建方式
在代码编辑任务研究领域,AGENTPACK数据集的构建采用了系统化的采集流程。研究团队首先从GH Archive获取了2025年4月至8月的GitHub公共时间线事件数据,通过识别Claude Code、OpenAI Codex和Cursor Agent三类智能体在提交信息中的特定签名模式来筛选相关活动。随后对包含智能体活动的代码库进行浅层克隆,仅保留已合并到主分支的提交以确保数据质量。最终通过关联元数据与代码差异构建出包含130万条代码编辑记录的数据集,并特别过滤了JavaScript依赖目录以避免代码重复问题。
特点
该数据集展现出三个显著特征:其代码变更源自人类与智能体的协同创作,这些变更经过项目维护者的质量筛选,体现了真实开发场景中的有效协作。智能体生成的提交说明平均长度达323字符,较传统人工提交的43字符更为详尽,能够清晰阐述修改意图与原理。数据集覆盖多种编程语言和任务类型,不仅包含Python、JavaScript等主流语言,还涉及OCaml、Julia等低资源语言,任务范围涵盖功能开发、缺陷修复、文档编写等多元场景。
使用方法
针对代码编辑模型的训练需求,AGENTPACK可转化为标准的提示-补全格式进行应用。研究人员将自然语言描述与原始代码内容组合为输入提示,将修改后的代码作为目标输出。在处理多文件变更时,通过文件名标识区分不同文件内容,并采用省略号衔接未修改的代码段落。为控制训练成本,可筛选令牌数不超过4096的样本,最终从数据集中提取约12万条训练样本,涵盖1.2亿令牌量,适用于各类代码编辑模型的微调训练。
背景与挑战
背景概述
AGENTPACK数据集由美国东北大学研究团队于2025年构建,聚焦于人工智能与人类协作编程场景下的代码变更研究。该数据集采集了2025年4月至8月期间Claude Code、OpenAI Codex和Cursor Agent三类智能体在GitHub公开仓库中共同参与的130万条代码修改记录,标志着软件工程领域正式进入人机协同开发的新范式。其核心价值在于通过真实世界的人机协作数据,为代码编辑模型的训练提供了兼具语义清晰度与工程实践性的高质量语料,显著推动了智能编程助手领域的实证研究发展。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,传统代码编辑数据集存在提交信息简略、多任务混杂及机器人提交噪声等问题,而AGENTPACK需确保智能体生成的代码变更既能准确体现编程意图,又要维持工程可用的质量标准;在构建过程中,研究者需设计精准的智能体活动识别管道,克服GitHub仓库删除或私有化导致的数据缺失,并建立有效的质量过滤机制排除节点模块目录等非原创代码,同时需处理多文件变更的复杂结构与跨语言代码的归一化表征难题。
常用场景
经典使用场景
在软件工程领域,AGENTPACK数据集为研究人机协作编程模式提供了重要基础。该数据集通过收集Claude Code、OpenAI Codex和Cursor Agent等智能体与开发者共同编写的130万条代码变更记录,系统呈现了多文件修改、测试用例生成及详细自然语言描述等典型协作特征,成为分析智能体代码编辑行为与交互范式的核心资源。
实际应用
在实际开发场景中,AGENTPACK支撑的模型已应用于自动化代码重构、智能缺陷修复及文档生成等任务。企业可利用该数据集训练的模型快速响应功能需求变更,例如通过分析多文件关联修改模式优化系统架构,或基于详细提交描述自动生成技术文档,显著提升软件维护效率与代码质量。
衍生相关工作
该数据集催生了多项创新研究,包括基于强化学习的代码优化框架SWE-RL、跨语言知识迁移模型OpenCodeReasoning等。这些工作通过扩展AGENTPACK的多语言特性与任务分类体系,开发出支持OCaml、Julia等稀缺语言的编程助手,并建立了代码编辑任务的细粒度评估标准,推动智能编程助手向专业化、场景化方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作