MOSAIC-agentic-3m

Name: MOSAIC-agentic-3m
Creator: 代尔夫特理工大学; 加州大学戴维斯分校; GitHub
Published: 2026-04-01 21:58:30
License: 暂无描述

arXiv2026-04-01 更新2026-04-03 收录

下载链接：

https://huggingface.co/datasets/AISE-TUDelft/MOSAIC-agentic-3m

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由代尔夫特理工大学等机构联合构建，收录了约11万条开源GitHub pull requests及其关联元数据，涵盖提交、评论、审查记录等问题追踪信息，涉及数百万行源代码。数据通过挖掘五个主流编码代理（包括OpenAI Codex、GitHub Copilot等）的协作痕迹构建，重点捕捉AI代理与人类开发者的交互模式。数据集旨在研究自主编码代理对代码质量、团队协作及软件可维护性的影响，为AI原生软件开发提供实证分析基础。

This dataset was jointly constructed by Delft University of Technology and other institutions. It contains approximately 110,000 open-source GitHub Pull Requests and their associated metadata, covering issue tracking information such as commits, comments and review records, and involving millions of lines of source code. The dataset was built by mining collaboration traces from five mainstream coding agents, including OpenAI Codex, GitHub Copilot and others, with a focus on capturing the interaction patterns between AI Agents and human developers. This dataset aims to study the impact of autonomous coding agents on code quality, team collaboration and software maintainability, providing an empirical analysis foundation for AI-native software development.

提供机构：

代尔夫特理工大学; 加州大学戴维斯分校; GitHub

创建时间：

2026-04-01

原始信息汇总

数据集概述

基本信息

数据集名称: MOSAIC-agentic-3m
发布者: AISE-TUDelft
许可证: GPL-3.0
地址: https://huggingface.co/datasets/AISE-TUDelft/MOSAIC-agentic-3m

数据集结构

数据集包含多个配置，每个配置对应一种贡献者类型和一种活动类型。

配置概览

配置名称遵循 {活动类型}_{贡献者类型} 的格式。

活动类型

Comments (评论)
Commits (提交)
Issues (议题)
PullRequests (拉取请求)

贡献者类型

Claude
Codex
Copilot
Devin
Human
Jules

各配置详情

Comments 配置组

包含 Comments_Claude, Comments_Codex, Comments_Copilot, Comments_Devin, Comments_Human, Comments_Jules。

通用特征:
- id: 字符串
- pr_id: 字符串
- url: 字符串
- body: 字符串
- created_at: 字符串
- is_minimized: 布尔值
- minimized_reason: 字符串
- last_edited_at: 字符串
- published_at: 字符串
- updated_at: 字符串
- author: 结构体 (包含 id, login, name, typename, url)
数据规模:
- Comments_Claude: 22,329 个样本，55.86 MB
- Comments_Codex: 3,693 个样本，4.62 MB
- Comments_Copilot: 26,664 个样本，32.99 MB
- Comments_Devin: 27,518 个样本，25.81 MB
- Comments_Human: 18,559 个样本，23.91 MB
- Comments_Jules: 5,700 个样本，6.18 MB

Commits 配置组

包含 Commits_Claude, Commits_Codex, Commits_Copilot, Commits_Devin, Commits_Human, Commits_Jules。

通用特征:
- id: 字符串
- sha: 字符串
- pr_id: 字符串
- url: 字符串
- committed_date: 字符串
- additions: 整数
- deletions: 整数
- authored_date: 字符串
- message_body: 字符串
- message_headline: 字符串
- author_count: 整数
- committer: 结构体 (包含 email, name)
- changed_files: 整数
- authors: 列表 (元素为包含 email, name 的结构体)
数据规模:
- Commits_Claude: 82,755 个样本，78.33 MB
- Commits_Codex: 27,530 个样本，13.02 MB
- Commits_Copilot: 69,896 个样本，41.97 MB
- Commits_Devin: 51,641 个样本，45.60 MB
- Commits_Human: 102,037 个样本，54.51 MB
- Commits_Jules: 41,032 个样本，39.45 MB

Issues 配置组

包含 Issues_Claude, Issues_Codex, Issues_Copilot, Issues_Devin, Issues_Human, Issues_Jules。

通用特征:
- id: 字符串
- pr_id: 字符串
- url: 字符串
- title: 字符串
- body: 字符串
- created_at: 字符串
- locked: 布尔值或空值
- number: 整数
- state: 字符串
- tracked_issues_count: 整数或空值
- label_count: 整数
- last_edited_at: 字符串
- published_at: 字符串
- updated_at: 字符串
- issue_type: 结构体 (包含 description, name)
- labels: 列表 (元素为包含 description, name 的结构体)
- state_reason: 字符串
- author: 结构体 (包含 id, login, name, typename, url)
- pr_ids: 空值
- prs_closing_issue: 整数
数据规模:
- Issues_Claude: 4,052 个样本，8.37 MB
- Issues_Codex: 45 个样本，0.06 MB
- Issues_Copilot: 9,744 个样本，18.04 MB
- Issues_Devin: 294 个样本，0.50 MB
- Issues_Human: 1,973 个样本，2.59 MB
- Issues_Jules: 2,185 个样本，4.43 MB

PullRequests 配置组

包含 PullRequests_Claude, PullRequests_Codex (特征列表不完整，详情页中可能未完全展示)。

部分通用特征 (基于 PullRequests_Claude):
- id: 字符串
- title: 字符串
- url: 字符串
- number: 整数
- body: 字符串
- state: 字符串
- created_at: 字符串
- is_draft: 布尔值
- changed_files: 整数
- is_cross_repository: 布尔值
- locked: 布尔值
- is_in_merge_queue: 空值
- additions: 整数
- deletions: 整数
- author: 结构体 (包含 id, login, name, typename, url)
- label_count: 整数
- base_repository: 结构体 (包含 id, name, url)
- head_repository: 结构体 (包含 id, name, url)
- timeline_count: 整数
- merged_at: 字符串
- closed_at: 字符串
- updated_at: 字符串
- last_edited_at: 字符串
- published_at: 字符串
- review_decision: 字符串
- head_ref_name: 字符串
- head_ref_oid: 字符串
- timeline_items: 空值
- base_ref_name: 字符串
- base_ref_oid: 字符串
- comments_count: 整数
- reviews_count: 整数
- commits_count: 整数
- files: 列表 (元素为包含 additions, change_type, deletions, path 的结构体)
- assignees_count: 整数
- closing_issues_count: 整数
- author_association: 字符串
- labels: 列表 (元素为包含 description, name 的结构体)
- active_lock_reason: 字符串
数据规模 (基于 PullRequests_Claude):
- PullRequests_Claude: 19,148 个样本，60.91 MB

数据规模总结

数据集包含多种软件开发活动记录，按贡献者类型分类。
总样本数量为各配置样本数之和。
所有配置均仅包含训练集 (train split)。

搜集汇总

数据集介绍

构建方式

在软件工程领域，随着大型语言模型在代码生成任务中的广泛应用，自主编码代理已成为开源项目的重要贡献者。MOSAIC-agentic-3m数据集的构建基于对GitHub上公开拉取请求的系统性挖掘，聚焦于五种主流编码代理（OpenAI Codex、Claude Code、GitHub Copilot、Google Jules和Devin）的活动。研究团队通过GitHub GraphQL API，在2025年6月至8月的时间窗口内，依据各代理的特定签名信号（如分支前缀、作者水印或机器人账户）筛选出约11万条拉取请求，并采集了相关的提交、评论、审查、议题及文件变更等元数据。为确保样本的代表性，针对不同代理的活跃度差异，采用了自适应的时间间隔采样策略，并对人类贡献的拉取请求进行了同步收集与过滤，以排除已知代理的干扰，最终形成了覆盖多维度协作信息的结构化数据集。

特点

该数据集的核心特征在于其全面捕捉了自主编码代理在真实开发环境中的行为轨迹与代码演化模式。它不仅记录了拉取请求的基本属性（如变更规模、合并状态和时间戳），还深度整合了丰富的上下文信息，包括关联的提交哈希、开发者互动评论、代码审查意见、链接的议题详情以及具体修改的文件路径与内容差异。尤为突出的是，数据集通过纵向指标（如代码存活率、变更波动率和删除率）量化了代理生成代码的长期维护性，从而为分析AI贡献的稳定性提供了实证基础。此外，数据覆盖了从零星级到高星级的不同流行度仓库，揭示了代理活动在项目生态中的分布异质性，为理解人机协作的动态提供了多层次视角。

使用方法

该数据集为实证软件工程研究提供了宝贵的资源，尤其适用于探索自主编码代理对开发流程与代码质量的影响。研究者可基于其结构化信息，进行跨代理的比较分析，例如评估不同代理在合并效率、变更复杂性或文件类型偏好上的差异。通过计算代码存活率与波动率等指标，能够纵向追踪代理生成代码的演化轨迹，进而评估其长期可维护性。数据集还可用于训练或微调代码生成模型，以真实世界的合并结果或审查反馈作为监督信号。在使用时，建议结合仓库星级、时间窗口等维度进行分层抽样，以控制潜在偏差，并注意代理贡献的可追溯性局限，聚焦于可观测的拉取请求层面进行分析。

背景与挑战

背景概述

随着大语言模型在代码生成领域的崛起，软件工程正迈入AI原生时代。自主编码代理能够创建分支、开启拉取请求和执行代码审查，已成为开源项目中活跃的贡献者。在此背景下，由代尔夫特理工大学、加州大学戴维斯分校及GitHub的研究人员于2026年构建的MOSAIC-agentic-3m数据集应运而生。该数据集旨在系统探究自主编码代理在真实开发环境中的活动模式、代码贡献特性及其对软件可维护性的长期影响。它涵盖了约11万个开源拉取请求，关联了数百万行源代码的提交、评论、审查和文件变更记录，为理解AI与人类在软件开发中的协作范式提供了关键实证基础。

当前挑战

该数据集致力于解决自主编码代理在软件工程领域带来的核心挑战，即如何量化评估AI生成代码的质量、稳定性及其对协作流程的影响。构建过程中的主要挑战包括：准确识别与归因代理贡献，避免因水印禁用或作者信息混淆导致的数据污染；在极不均衡的仓库流行度分布下进行代表性采样，以覆盖从零星项目到高星仓库的广泛生态；处理不同代理在拉取请求创建、审查流程中的异构行为模式，确保跨代理比较的有效性；设计能够捕捉代码长期演化的指标，如生存率与变更率，以超越静态分析，揭示AI生成代码的动态维护特征。

常用场景

经典使用场景

在软件工程与人工智能交叉研究领域，MOSAIC-agentic-3m数据集为探索自主编码代理在真实开源项目中的活动模式提供了核心实证基础。研究者通过分析数据集内超过11万个拉取请求及其关联的提交、评论、审查和文件变更，能够系统性地刻画代理与人类开发者在代码贡献行为上的差异。该数据集最经典的应用场景在于对比研究，例如比较不同代理（如OpenAI Codex、GitHub Copilot、Claude Code等）在合并频率、变更规模、文件类型偏好以及开发者互动信号等方面的行为特征，从而揭示AI代理在协作开发流程中的实际作用与局限性。

衍生相关工作

基于MOSAIC-agentic-3m数据集，学术界已衍生出多项深入探索AI代理软件工程的研究。例如，针对特定代理（如Claude Code）的贡献模式分析工作，细致考察了其在非功能性改进任务上的倾向性。另有研究利用该数据集扩展了代理活动仪表板，实现了对多代理贡献趋势的实时监测与可视化。此外，数据集支撑了关于代理生成代码审查效率、多代理系统协同机制以及长期维护成本评估等一系列新兴研究方向，为构建更全面的AI原生软件工程理论框架奠定了数据基石。

数据集最近研究