AIDev

Name: AIDev
Creator: 密歇根大学迪尔伯恩分校; 密歇根大学弗林特分校
Published: 2026-01-23 23:40:28
License: 暂无描述

arXiv2026-01-23 更新2026-01-27 收录

下载链接：

https://doi.org/10.1145/3793302.3793563

下载链接

链接失效反馈

官方服务：

资源简介：

AIDev是由密歇根大学团队构建的首个大规模开源数据集，聚焦AI编码代理在真实GitHub仓库中生成的构建系统相关PRs（Agentic-PRs）。该数据集包含387条经过严格筛选的PRs，涉及945个构建文件（Gradle/Maven/CMake/Make），通过静态分析工具Sniffer标注了364个可维护性与安全性相关的代码异味。数据源自五个主流AI代理（Codex/Copilot等）的生成结果，经双重过滤和人工标注确保质量。其核心价值在于首次系统性评估AI生成构建代码的质量问题（如硬编码路径、依赖过时等），并为构建系统自动化质量评估提供基准。

AIDev is the first large-scale open-source dataset developed by a team at the University of Michigan, focusing on build system-related Pull Requests (Agentic-PRs) generated by AI coding agents in real GitHub repositories. This dataset includes 387 rigorously curated PRs, involving 945 build files (Gradle/Maven/CMake/Make), and 364 code smells related to maintainability and security have been annotated using the static analysis tool Sniffer. The data is sourced from the outputs of five mainstream AI agents (including Codex, Copilot, etc.), and has undergone dual filtering and manual annotation to guarantee data quality. Its core value lies in enabling the first systematic evaluation of quality issues in AI-generated build code (such as hard-coded paths, outdated dependencies, etc.), as well as providing a benchmark for automated quality assessment of build systems.

提供机构：

密歇根大学迪尔伯恩分校; 密歇根大学弗林特分校

创建时间：

2026-01-23

搜集汇总

数据集介绍

构建方式

在软件工程领域，随着人工智能编码代理的广泛应用，构建系统作为软件生命周期的关键环节，其自动化生成代码的质量评估成为新兴研究焦点。AIDev数据集的构建依托于一个包含约93.3万个由AI代理生成的拉取请求（Agentic-PRs）的大规模开源集合，涵盖了真实GitHub仓库中的代码变更。研究团队通过精细的数据预处理流程，从原始数据中筛选出涉及主流构建系统（如Maven、Gradle、CMake和Make）的构建文件修改，并经过人工核查以排除误分类样本，最终得到包含387个有效拉取请求和945个构建文件的数据子集。这一构建过程确保了数据在反映AI代理实际参与构建系统开发方面的代表性与真实性。

使用方法

研究人员可利用该数据集从多个维度展开实证研究。首先，通过分析变更前后的构建文件快照与Sniffer的检测结果，可以量化评估不同AI代理（如Codex、Copilot）在生成构建代码时引入或消除各类代码异味的倾向与模式。其次，结合拉取请求的审查历史、开发者讨论及合并记录，能够探究开发社区对AI生成构建代码的接受程度与信任水平。此外，数据集支持对特定重构模式进行定性分析，以理解AI驱动质量改进的内在机制。这些分析方法共同为构建面向AI的构建代码质量评估框架提供了扎实的数据基础。

背景与挑战

背景概述

随着人工智能编码代理在软件开发中的迅速普及，其生成代码的质量与可维护性引发了广泛关注。AIDev数据集由密歇根大学迪尔伯恩分校的Anwar Ghammam与密歇根大学弗林特分校的Mohamed Almukhtar等研究人员于2026年构建，旨在填补AI生成构建系统代码质量评估的研究空白。该数据集聚焦于从真实GitHub仓库中采集的由AI代理提交的拉取请求，核心研究问题在于探究AI生成的构建代码是否引入代码异味、能否消除现有异味以及开发者对这类代码的接受程度。作为首个大规模、公开可用的AI生成构建代码数据集，AIDev为软件工程领域提供了实证基础，推动了构建系统质量分析与AI辅助开发工具的交叉研究。

当前挑战

AIDev数据集所应对的领域挑战在于评估AI生成构建代码的质量问题，具体涉及检测构建脚本中的可维护性与安全性异味，例如依赖项过时、错误处理缺失或硬编码路径等。构建过程中的挑战则体现在数据筛选与标注的复杂性上：原始数据需经过多轮过滤以排除非构建文件或隐藏文件的干扰，确保最终387个拉取请求的真实性与代表性；同时，依赖静态分析工具Sniffer进行异味检测可能引入误报，而人工标注过程需通过一致性检验以保证结果可靠性。这些挑战凸显了在动态演进的软件生态中系统化评估AI生成构建代码的难度。

常用场景

经典使用场景

在软件工程领域，构建系统作为自动化编译、依赖管理和部署的核心环节，其代码质量直接影响项目的可维护性与安全性。AIDev数据集通过收集来自真实GitHub仓库中由AI编码代理生成的拉取请求，为研究者提供了一个独特的视角，用以系统评估AI在构建代码生成过程中的表现。该数据集典型应用于实证分析AI代理在Maven、Gradle等主流构建工具中引入或消除代码异味的行为模式，从而揭示自动化代码生成对构建系统质量的双重影响。

解决学术问题

AIDev数据集有效解决了软件工程中关于AI生成代码质量的若干关键学术问题。它首次针对构建系统这一长期被忽视的领域，提供了大规模实证证据，揭示了AI代理在生成构建代码时可能引入的维护性与安全性缺陷，如硬编码路径、过时依赖等问题。同时，数据集也证实了AI代理通过重构操作消除现有代码异味的能力，例如模块上移和外部化属性等模式。这些发现填补了AI代码生成研究在构建系统质量评估方面的空白，为建立AI感知的构建代码质量评估框架奠定了数据基础。

实际应用

在实际软件开发流程中，AIDev数据集为开发团队和工具开发者提供了重要参考。团队可依据数据集中揭示的AI生成构建代码的常见缺陷模式，设计针对性的代码审查清单或集成静态分析工具，以在持续集成流水线中提前拦截潜在质量问题。此外，AI编码代理的开发者能够利用该数据集的发现，优化模型训练数据与生成策略，减少如通配符使用、错误处理缺失等高风险模式的输出，从而提升生成代码的可靠性与安全性，支持更高效、可信的自动化构建维护。

数据集最近研究