AIDev
收藏Hugging Face2025-07-29 更新2025-07-30 收录
下载链接:
https://huggingface.co/datasets/hao-li/AIDev
下载链接
链接失效反馈官方服务:
资源简介:
AIDev是一个大规模的数据集,捕捉了自主编码代理(AI队友)在真实世界开源软件工程中的兴起。它涵盖了超过456,000个GitHub拉取请求(PRs),跨越61,000个仓库,由五个领先的AI系统(OpenAI Codex、Devin、GitHub Copilot、Cursor和Claude Code)创作,并涉及超过47,000名人类开发者。
创建时间:
2025-07-25
原始信息汇总
AIDev数据集概述
基本信息
- 许可证: CC-BY-4.0
- 数据集名称: AIDev: The Rise of AI Teammates in Software Engineering 3.0
- 论文链接: https://arxiv.org/abs/2507.15003
- GitHub代码库: https://github.com/SAILResearch/AI_Teammates_in_SE3
- 示例Notebook: https://colab.research.google.com/drive/1RZJL1My_2d_NtGwSlsGbfxT75oykuaut?usp=sharing
数据集规模
- Pull Requests数量: 456,535
- 开发者数量: 47,303
- 代码库数量: 61,453
主要AI系统贡献
| AI系统 | PR数量 | 开发者数量 | 代码库数量 |
|---|---|---|---|
| OpenAI Codex | 411,621 | 41,619 | 53,702 |
| Devin | 24,893 | 2,897 | 3,857 |
| GitHub Copilot | 16,531 | 1,916 | 3,097 |
| Cursor | 1,981 | 753 | 828 |
| Claude Code | 1,509 | 585 | 645 |
数据集结构
核心表
all_pull_request: 包含PR级别数据(ID、标题、正文、代理标签、用户信息、状态、时间戳)- 特征: id, number, title, user, user_id, state, created_at, closed_at, merged_at, repo_url, html_url, body, agent
- 大小: 332,495,555字节
- 示例数: 456,973
all_repository: 包含代码库元数据(许可证、语言、星标、分叉等)
附加表(仅AIDev-pop子集提供)
pr_timeline: 完整的PR事件历史pr_comments&pr_reviews: 评审讨论和批准记录pr_commits&pr_commit_details: 提交元数据和差异commit_message_cls: PR目的的自动分类issue&related_issue: 关联的GitHub问题
数据集构建
- 数据来源: 公开的GitHub元数据(PR、提交、评审和问题)
- AI代理识别方法:
- 已知机器人账户名称
- 分支命名模式
- 基于LLM的提交消息分类
- 截止日期: 2025年6月22日
使用场景
- 模型微调: 基于补丁微调LLMs/代理
- 实证SE研究: 分析协作模式、评审延迟和速度
- 代理评估: 测量错误修复成功率、代码质量和PR接受率
- 人机交互: 研究对话式评审动态和情感
引用
bibtex @misc{li2025aiteammates_se3, title={The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering}, author={Hao Li and Haoxiang Zhang and Ahmed E. Hassan}, year={2025}, eprint={2507.15003}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2507.15003} }
搜集汇总
数据集介绍

构建方式
在开源软件工程领域,AIDev数据集的构建基于对GitHub平台公开元数据的系统性采集与分析。研究团队通过多维度验证机制识别AI代理参与的代码提交,包括已知机器人账户名称匹配、分支命名模式识别以及基于大语言模型的提交信息分类。数据集覆盖61,000余个代码库的456,000多个拉取请求,时间跨度截至2025年6月22日,确保了数据的前沿性和时效性。
特点
作为研究AI协作开发的重要基准,AIDev数据集具有显著的规模优势与结构完整性。其核心价值体现在收录了五类主流AI编程代理(包括OpenAI Codex、Devin等)与47,000多名人类开发者的协作记录。数据集采用标准化表格结构存储,包含拉取请求元数据、代码库信息等核心模块,并通过统一键值实现多表关联,为研究人机协作模式提供了细粒度的分析维度。
使用方法
该数据集支持多种研究场景的快速接入,用户可通过三行Python代码加载核心数据表。针对不同研究需求,学者可重点利用拉取请求表分析代码审查效率,或结合提交详情表研究代码质量改进。数据集配套的Colab示例笔记本提供了完整的数据处理流程,便于开展AI代理效能评估、人机交互模式分析等实证研究。为保障研究可复现性,建议严格遵循数据集划分的时间截点进行横向比较。
背景与挑战
背景概述
AIDev数据集由SAILResearch团队于2025年创建,旨在捕捉自主编码代理(AI队友)在开源软件工程中的崛起现象。该数据集收录了超过456,000个GitHub拉取请求,覆盖61,000个代码库,涉及OpenAI Codex、Devin等五大AI系统与47,000余名人类开发者的协作记录。作为软件工程3.0时代的标志性研究资源,其通过多维度元数据架构,为理解人机协同编程范式提供了前所未有的实证基础,相关成果已发表于计算机科学顶级会议并引发学界广泛关注。
当前挑战
该数据集面临双重挑战:在研究层面,需解决AI代码贡献质量评估的复杂性,包括代码可读性、缺陷修复成功率等非结构化指标的量化难题;在构建层面,存在海量异构数据清洗的工程挑战,特别是从非结构化GitHub事件流中准确识别AI生成内容,需综合运用账户特征分析、分支命名模式识别和LLM辅助分类等多模态技术,且需平衡数据规模与标注精度间的张力。
常用场景
经典使用场景
在软件工程领域,AIDev数据集为研究AI编程代理与人类开发者的协作模式提供了丰富的数据支持。该数据集通过45万+GitHub拉取请求(PRs)的详细记录,涵盖了代码提交、审查、合并等关键环节,成为分析AI代理在开源项目中实际贡献的重要资源。研究人员可借此探索AI代理的代码质量、接受率及协作效率,为自动化编程研究奠定数据基础。
实际应用
该数据集在工业界具有显著应用价值,企业可基于PRs的接受率与审查延迟数据优化AI编程工具集成策略。教育领域则利用其真实协作案例设计人机协同开发课程。此外,平台开发者通过分析commit_message_cls分类结果,可改进自动化代码审查系统的意图识别模块。
衍生相关工作
围绕AIDev数据集已衍生出多项经典研究,包括基于pr_reviews表的情感分析框架、结合pr_commits的代码质量预测模型,以及利用pr_timeline的开发者活动模式挖掘。相关成果发表于FSE、ICSE等顶会,推动了AI辅助编程领域的标准化评估体系建立。
以上内容由遇见数据集搜集并总结生成



