five

AIDev

收藏
Hugging Face2025-07-29 更新2025-07-30 收录
下载链接:
https://huggingface.co/datasets/hao-li/AIDev
下载链接
链接失效反馈
官方服务:
资源简介:
AIDev是一个大规模的数据集,捕捉了自主编码代理(AI队友)在真实世界开源软件工程中的兴起。它涵盖了超过456,000个GitHub拉取请求(PRs),跨越61,000个仓库,由五个领先的AI系统(OpenAI Codex、Devin、GitHub Copilot、Cursor和Claude Code)创作,并涉及超过47,000名人类开发者。
创建时间:
2025-07-25
原始信息汇总

AIDev数据集概述

基本信息

  • 许可证: CC-BY-4.0
  • 数据集名称: AIDev: The Rise of AI Teammates in Software Engineering 3.0
  • 论文链接: https://arxiv.org/abs/2507.15003
  • GitHub代码库: https://github.com/SAILResearch/AI_Teammates_in_SE3
  • 示例Notebook: https://colab.research.google.com/drive/1RZJL1My_2d_NtGwSlsGbfxT75oykuaut?usp=sharing

数据集规模

  • Pull Requests数量: 456,535
  • 开发者数量: 47,303
  • 代码库数量: 61,453

主要AI系统贡献

AI系统 PR数量 开发者数量 代码库数量
OpenAI Codex 411,621 41,619 53,702
Devin 24,893 2,897 3,857
GitHub Copilot 16,531 1,916 3,097
Cursor 1,981 753 828
Claude Code 1,509 585 645

数据集结构

核心表

  • all_pull_request: 包含PR级别数据(ID、标题、正文、代理标签、用户信息、状态、时间戳)
    • 特征: id, number, title, user, user_id, state, created_at, closed_at, merged_at, repo_url, html_url, body, agent
    • 大小: 332,495,555字节
    • 示例数: 456,973
  • all_repository: 包含代码库元数据(许可证、语言、星标、分叉等)

附加表(仅AIDev-pop子集提供)

  • pr_timeline: 完整的PR事件历史
  • pr_comments & pr_reviews: 评审讨论和批准记录
  • pr_commits & pr_commit_details: 提交元数据和差异
  • commit_message_cls: PR目的的自动分类
  • issue & related_issue: 关联的GitHub问题

数据集构建

  • 数据来源: 公开的GitHub元数据(PR、提交、评审和问题)
  • AI代理识别方法:
    • 已知机器人账户名称
    • 分支命名模式
    • 基于LLM的提交消息分类
  • 截止日期: 2025年6月22日

使用场景

  • 模型微调: 基于补丁微调LLMs/代理
  • 实证SE研究: 分析协作模式、评审延迟和速度
  • 代理评估: 测量错误修复成功率、代码质量和PR接受率
  • 人机交互: 研究对话式评审动态和情感

引用

bibtex @misc{li2025aiteammates_se3, title={The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering}, author={Hao Li and Haoxiang Zhang and Ahmed E. Hassan}, year={2025}, eprint={2507.15003}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2507.15003} }

搜集汇总
数据集介绍
main_image_url
构建方式
在开源软件工程领域,AIDev数据集的构建基于对GitHub平台公开元数据的系统性采集与分析。研究团队通过多维度验证机制识别AI代理参与的代码提交,包括已知机器人账户名称匹配、分支命名模式识别以及基于大语言模型的提交信息分类。数据集覆盖61,000余个代码库的456,000多个拉取请求,时间跨度截至2025年6月22日,确保了数据的前沿性和时效性。
特点
作为研究AI协作开发的重要基准,AIDev数据集具有显著的规模优势与结构完整性。其核心价值体现在收录了五类主流AI编程代理(包括OpenAI Codex、Devin等)与47,000多名人类开发者的协作记录。数据集采用标准化表格结构存储,包含拉取请求元数据、代码库信息等核心模块,并通过统一键值实现多表关联,为研究人机协作模式提供了细粒度的分析维度。
使用方法
该数据集支持多种研究场景的快速接入,用户可通过三行Python代码加载核心数据表。针对不同研究需求,学者可重点利用拉取请求表分析代码审查效率,或结合提交详情表研究代码质量改进。数据集配套的Colab示例笔记本提供了完整的数据处理流程,便于开展AI代理效能评估、人机交互模式分析等实证研究。为保障研究可复现性,建议严格遵循数据集划分的时间截点进行横向比较。
背景与挑战
背景概述
AIDev数据集由SAILResearch团队于2025年创建,旨在捕捉自主编码代理(AI队友)在开源软件工程中的崛起现象。该数据集收录了超过456,000个GitHub拉取请求,覆盖61,000个代码库,涉及OpenAI Codex、Devin等五大AI系统与47,000余名人类开发者的协作记录。作为软件工程3.0时代的标志性研究资源,其通过多维度元数据架构,为理解人机协同编程范式提供了前所未有的实证基础,相关成果已发表于计算机科学顶级会议并引发学界广泛关注。
当前挑战
该数据集面临双重挑战:在研究层面,需解决AI代码贡献质量评估的复杂性,包括代码可读性、缺陷修复成功率等非结构化指标的量化难题;在构建层面,存在海量异构数据清洗的工程挑战,特别是从非结构化GitHub事件流中准确识别AI生成内容,需综合运用账户特征分析、分支命名模式识别和LLM辅助分类等多模态技术,且需平衡数据规模与标注精度间的张力。
常用场景
经典使用场景
在软件工程领域,AIDev数据集为研究AI编程代理与人类开发者的协作模式提供了丰富的数据支持。该数据集通过45万+GitHub拉取请求(PRs)的详细记录,涵盖了代码提交、审查、合并等关键环节,成为分析AI代理在开源项目中实际贡献的重要资源。研究人员可借此探索AI代理的代码质量、接受率及协作效率,为自动化编程研究奠定数据基础。
实际应用
该数据集在工业界具有显著应用价值,企业可基于PRs的接受率与审查延迟数据优化AI编程工具集成策略。教育领域则利用其真实协作案例设计人机协同开发课程。此外,平台开发者通过分析commit_message_cls分类结果,可改进自动化代码审查系统的意图识别模块。
衍生相关工作
围绕AIDev数据集已衍生出多项经典研究,包括基于pr_reviews表的情感分析框架、结合pr_commits的代码质量预测模型,以及利用pr_timeline的开发者活动模式挖掘。相关成果发表于FSE、ICSE等顶会,推动了AI辅助编程领域的标准化评估体系建立。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作