five

AIDev

收藏
github2025-08-01 更新2025-08-07 收录
下载链接:
https://github.com/SAILResearch/AI_Teammates_in_SE3
下载链接
链接失效反馈
官方服务:
资源简介:
AIDev数据集包含来自不同编码代理(如OpenAI Codex、Devin、GitHub Copilot等)的PR数据,总计456,535个PR,47,303个开发者和61,453个仓库。数据集还包含一个子集AIDev-pop,该子集过滤了超过500星的仓库。

The AIDev dataset comprises pull request (PR) data from various coding agents such as OpenAI Codex, Devin, GitHub Copilot and others. It includes a total of 456,535 PRs, involving 47,303 developers and 61,453 repositories. The dataset also contains a subset named AIDev-pop, which filters for repositories with over 500 stars.
创建时间:
2025-07-20
原始信息汇总

AI Teammates in Software Engineering (SE) 3.0 数据集概述

数据集基本信息

  • 数据集名称: AIDev
  • 论文标题: The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping SE
  • 论文链接: https://arxiv.org/abs/2507.15003
  • HuggingFace数据集链接: https://huggingface.co/datasets/hao-li/AIDev
  • 示例Notebook链接: https://colab.research.google.com/drive/1RZJL1My_2d_NtGwSlsGbfxT75oykuaut?usp=sharing
  • Human-PRs数据链接: https://drive.google.com/file/d/1nKYtm3U3SFMk5_iLXt1oog9glFnEUJ3T/view?usp=sharing

数据集统计

总体统计

编码代理 PR数量 开发者数量 仓库数量
OpenAI Codex 411,621 41,619 53,702
Devin 24,893 2,897 3,857
GitHub Copilot 16,531 1,916 3,097
Cursor 1,981 753 828
Claude Code 1,509 585 645
总计 456,535 47,303 61,453

AIDev-pop子集统计(仓库星数>500)

编码代理 PR数量 开发者数量 仓库数量
OpenAI Codex 2,686 522 467
Devin 2,729 300 130
GitHub Copilot 1,462 309 215
Cursor 144 66 52
Claude Code 101 68 61
总计 7,122 1,240 856

关键发现

生产力

  • 所有评估的自主编码代理的PR接受率均低于人类表现
  • OpenAI Codex接受率最高(64%),其次是Devin(49%)和GitHub Copilot(35%)

周转时间

  • OpenAI Codex的PR将审查时间缩短了10倍
  • 接受的OpenAI Codex PR中位关闭时间为0.3小时(18分钟)
  • GitHub Copilot在12.8分钟内交付了一半的PR

审查者分析

  • 人类审查者在Agentic-PRs中仍占主导地位
  • GitHub Copilot推动了向自动化混合审查协作的转变
  • 自主编码代理及其配对的审查机器人通常来自同一提供商

语言使用

  • TypeScript是所有代理中最常用的语言
  • OpenAI Codex明显偏向Python
  • GitHub Copilot强烈偏好C#

数据集结构

├── AIDev-pop/ # AIDev-pop子集 ├── analysis/ # 分析脚本和Jupyter notebooks ├── figs/ # 生成图表和结果 ├── requirements.txt # Python依赖 └── README.md # 说明文件

引用

bibtex @misc{li2025aiteammates, title={The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering}, author={Hao Li and Haoxiang Zhang and Ahmed E. Hassan}, year={2025}, eprint={2507.15003}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2507.15003}, }

搜集汇总
数据集介绍
main_image_url
构建方式
AIDev数据集的构建基于对GitHub上自主编码代理(如OpenAI Codex、Devin、GitHub Copilot等)生成的拉取请求(PR)的系统性收集与分析。研究团队通过API接口与仓库爬取相结合的方式,获取了涵盖45万条PR记录的大规模数据,并依据开发者活跃度、仓库星级等指标进行多维度筛选。数据集构建过程中特别注重保留PR的元数据(如提交时间、审核状态)及上下文信息(如关联代码库、编程语言),以确保研究生态的真实还原。
特点
该数据集的核心特点体现在其全面覆盖主流自主编码代理的产出数据,并细分为原始全集(AIDev)和高质量子集(AIDev-pop)。数据维度包含PR接受率、审核周期、参与者角色分布等关键指标,通过可视化图表揭示了AI代理在代码审查效率(如OpenAI Codex中位审核时间仅0.3小时)和语言偏好(如GitHub Copilot对C#的显著倾向)上的特征差异。独特的闭合审查循环现象(即AI代理与同源审查机器人的强关联)为研究算法偏见提供了新视角。
使用方法
研究者可通过HuggingFace平台直接加载数据集,配套的Jupyter Notebook示例提供了基础分析流程。数据集采用分层存储结构,包含原始PR数据、分析脚本及可视化模块,支持对编码代理生产力、审查模式等维度的量化研究。使用前需通过requirements.txt安装依赖环境,重点字段如PR类型(feat/fix/perf)、审核结果(accepted/rejected)等可直接用于构建分类模型或效率评估框架。引用时需关联原论文以保持学术规范性。
背景与挑战
背景概述
AIDev数据集由Hao Li、Haoxiang Zhang和Ahmed E. Hassan等研究人员于2025年创建,旨在探索自主编码代理(如OpenAI Codex、Devin、GitHub Copilot等)在软件工程3.0时代中的角色与影响。该数据集汇集了来自41,619位开发者的456,535个拉取请求(PR),覆盖61,453个代码仓库,为研究AI与人类在软件开发中的协作模式提供了重要基准。其核心研究问题聚焦于评估AI代理的代码贡献效率、PR接受率及语言偏好,为软件工程领域的智能化转型提供了数据支撑。
当前挑战
AIDev数据集在解决软件工程智能化转型问题时面临多重挑战。领域层面,AI代理的PR接受率显著低于人类开发者,尤其在功能开发与缺陷修复任务中表现明显,需进一步优化模型决策逻辑。构建过程中,数据规模庞大且来源分散,涉及多平台(如GitHub、HuggingFace)的异构数据整合,清洗与标注成本较高。此外,AI代理与特定编程语言(如Codex偏好Python)的强关联性可能导致领域偏差,需设计更均衡的采样策略。
常用场景
经典使用场景
在软件工程3.0时代,AIDev数据集为研究自主编码代理(Autonomous Coding Agents)的工作模式和效率提供了重要支持。该数据集通过分析超过45万条拉取请求(PR),揭示了不同AI编码工具在代码提交、审查和合并过程中的表现差异。研究人员可利用这些数据比较OpenAI Codex、Devin、GitHub Copilot等工具在特征开发、错误修复和性能优化任务中的接受率,为AI辅助编程的效能评估建立基准。
实际应用
在实际开发场景中,AIDev数据集可指导企业优化AI编程工具链配置。例如数据分析显示GitHub Copilot能在12.8分钟内完成50%的PR提交,这种时效性特征可帮助团队规划敏捷开发周期。同时,数据集揭示的封闭式PR-审查循环现象(如特定AI工具与配套审查机器人的强关联性)为CI/CD流程设计提供了重要参考,有助于平衡自动化效率与代码质量管控。
衍生相关工作
基于AIDev数据集的研究已衍生出多个重要方向,包括AI代码审查机制优化、混合人机协作工作流设计等。原始论文提出的审查时间雷达图分析方法被后续研究广泛采用,而关于语言偏好的发现则推动了领域适应性预训练的研究。数据集中的AIDev-pop子集(筛选星标>500的项目)更成为评估AI工具在高质量项目中表现的标准测试集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作