five

MOSAIC-agentic-3m

收藏
Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/AISE-TUDelft/MOSAIC-agentic-3m
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自多个来源(Claude、Codex、Copilot、Devin、Human、Jules)的GitHub活动记录,涵盖评论、提交、问题、拉取请求等多种类型。每种数据类型都包含丰富的元数据字段,如时间戳、作者信息、内容正文等。数据集按来源和活动类型分为多个配置组,每个配置组包含训练集分割,并提供了详细的字节大小和样本数量统计。数据格式包含字符串、整型、布尔型等多种数据类型,部分字段采用嵌套结构。该数据集适用于软件工程研究、开发者行为分析、代码生成模型训练等场景。
提供机构:
AISE research lab at TU Delft
创建时间:
2026-04-01
原始信息汇总

数据集概述

基本信息

  • 数据集名称: MOSAIC-agentic-3m
  • 许可证: GPL-3.0
  • 地址: https://huggingface.co/datasets/AISE-TUDelft/MOSAIC-agentic-3m

数据集结构

数据集包含多个配置(config),每个配置对应一种特定类型的数据,主要分为评论(Comments)、提交(Commits)、议题(Issues)和拉取请求(PullRequests)四大类,并进一步按作者类型(如Claude、Codex、Copilot、Devin、Human、Jules)细分。

评论数据(Comments)

包含6个配置,每个配置的特征字段包括:id、pr_id、url、body、created_at、is_minimized、minimized_reason、last_edited_at、published_at、updated_at、author(结构体,包含id、login、name、typename、url字段)。

  • Comments_Claude: 训练集包含22,329个样本,大小约55.86 MB。
  • Comments_Codex: 训练集包含3,693个样本,大小约4.62 MB。
  • Comments_Copilot: 训练集包含26,664个样本,大小约32.99 MB。
  • Comments_Devin: 训练集包含27,518个样本,大小约25.81 MB。
  • Comments_Human: 训练集包含18,559个样本,大小约23.91 MB。
  • Comments_Jules: 训练集包含5,700个样本,大小约6.18 MB。

提交数据(Commits)

包含6个配置,每个配置的特征字段包括:id、sha、pr_id、url、committed_date、additions、deletions、authored_date、message_body、message_headline、author_count、committer(结构体,包含email、name字段)、changed_files、authors(列表,每个元素包含email、name字段)。

  • Commits_Claude: 训练集包含82,755个样本,大小约78.33 MB。
  • Commits_Codex: 训练集包含27,530个样本,大小约13.02 MB。
  • Commits_Copilot: 训练集包含69,896个样本,大小约41.97 MB。
  • Commits_Devin: 训练集包含51,641个样本,大小约45.60 MB。
  • Commits_Human: 训练集包含102,037个样本,大小约54.51 MB。
  • Commits_Jules: 训练集包含41,032个样本,大小约39.45 MB。

议题数据(Issues)

包含6个配置,每个配置的特征字段包括:id、pr_id、url、title、body、created_at、locked、number、state、tracked_issues_count、label_count、last_edited_at、published_at、updated_at、issue_type(结构体,包含description、name字段)、labels(列表,每个元素包含description、name字段)、state_reason、author(结构体,包含id、login、name、typename、url字段)、pr_ids、prs_closing_issue。

  • Issues_Claude: 训练集包含4,052个样本,大小约8.37 MB。
  • Issues_Codex: 训练集包含45个样本,大小约57.02 KB。
  • Issues_Copilot: 训练集包含9,744个样本,大小约18.04 MB。
  • Issues_Devin: 训练集包含294个样本,大小约502.23 KB。
  • Issues_Human: 训练集包含1,973个样本,大小约2.59 MB。
  • Issues_Jules: 训练集包含2,185个样本,大小约4.43 MB。

拉取请求数据(PullRequests)

包含6个配置,每个配置的特征字段包括:id、title、url、number、body、state、created_at、is_draft、changed_files、is_cross_repository、locked、is_in_merge_queue、additions、deletions、author(结构体,包含id、login、name、typename、url字段)、label_count、base_repository(结构体,包含id、name、url字段)、head_repository(结构体,包含id、name、url字段)、timeline_count、merged_at、closed_at、updated_at、last_edited_at、published_at、review_decision、head_ref_name、head_ref_oid、timeline_items、base_ref_name、base_ref_oid、comments_count、reviews_count、commits_count、files(列表,每个元素包含additions、change_type、deletions、path字段)、assignees_count、closing_issues_count、author_association、labels(列表,每个元素包含description、name字段)、active_lock_reason。

  • PullRequests_Claude: 训练集包含19,148个样本,大小约60.91 MB。
  • PullRequests_Codex: 训练集样本数量未在提供的README中明确列出。
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程与人工智能交叉领域,MOSAIC-agentic-3m数据集通过系统化采集GitHub平台上的协作数据构建而成。该数据集聚焦于代码审查与版本控制流程,从Pull Requests、Issues、Commits及Comments等多个维度,收集了由人类开发者及多种AI代理(如Claude、Codex、Copilot、Devin、Jules)生成的实际交互记录。构建过程中,数据以结构化方式组织,每个配置均包含详尽的元数据字段,如作者信息、时间戳、内容主体及关联标识,确保了数据源的完整性与可追溯性。
特点
该数据集的核心特点在于其多源异构的标注体系与规模化的现实世界数据覆盖。数据集不仅区分了人类与不同AI代理的贡献,还涵盖了软件开发生命周期中的关键活动类型,如代码提交、问题追踪和拉取请求评论。每个数据条目均附有丰富的上下文信息,包括修改行数、文件变更、标签分类及状态历史,为研究智能体协作行为提供了细粒度的分析基础。这种结构化的多模态设计,使得数据集能够支持从代码生成质量评估到团队协作模式挖掘的广泛研究议题。
使用方法
研究人员可通过HuggingFace数据集库直接加载MOSAIC-agentic-3m,利用其预定义的配置名称按数据类别与作者类型进行灵活筛选。数据集适用于训练或评估代码智能体、自然语言处理模型及软件工程分析工具。典型应用场景包括:通过对比人类与AI生成的提交信息或评论,探究自动化代码贡献的模式差异;利用时间序列与元数据特征,构建协作效率预测模型;或基于问题与拉取请求的文本内容,开发智能代码审查辅助系统。数据集的标准化格式确保了与主流机器学习框架的无缝集成。
背景与挑战
背景概述
在人工智能代理技术迅猛发展的时代背景下,MOSAIC-agentic-3m数据集应运而生,旨在为研究AI代理在软件开发协作中的行为模式提供大规模、细粒度的实证数据。该数据集由相关研究机构于近期构建,核心研究问题聚焦于解析不同AI代理(如Claude、Codex、Copilot、Devin、Jules)与人类开发者在真实GitHub项目中的交互差异,涵盖拉取请求、提交、评论和议题等多维度活动。通过系统性地收集和标注这些异构数据,该数据集为评估AI代理的协作效率、代码贡献质量以及人机交互动态奠定了坚实基础,对推动智能软件开发与软件工程学交叉领域的研究具有深远影响力。
当前挑战
该数据集致力于解决智能软件工程领域中AI代理行为识别与分析的挑战,其核心问题在于如何从海量、异构的软件开发活动数据中,准确区分并理解不同AI代理的协作模式与意图。在构建过程中,面临多重挑战:首先,数据采集需从复杂的GitHub事件流中精确提取与特定AI代理相关的活动,涉及大规模API调用与实体关联;其次,数据清洗与归一化任务繁重,需处理非结构化文本、时间序列不一致以及缺失值等问题;再者,确保数据标注的准确性与一致性,尤其是在区分AI生成内容与人类创作时,存在语义模糊性;最后,维护数据的代表性与平衡性,避免因某些代理活动频率差异而导致的数据偏差,这些均对数据集的构建质量与后续研究的可靠性构成考验。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,MOSAIC-agentic-3m数据集为研究智能体在代码协作平台上的行为模式提供了丰富资源。该数据集通过整合GitHub平台上多个智能体(如Claude、Codex、Copilot等)与人类开发者产生的提交、评论、议题和拉取请求数据,构建了一个多模态的协作行为档案。经典使用场景聚焦于训练和评估代码生成智能体的协作能力,研究者能够利用这些结构化数据模拟真实的代码审查流程,分析智能体在多人协作环境中的交互模式与贡献质量。
实际应用
在实际应用层面,该数据集为开发更智能的代码协作工具提供了训练与验证基础。企业可利用这些数据优化代码审查助手的功能,例如训练模型自动识别低质量提交、生成更具建设性的评论建议或预测拉取请求的合并风险。教育机构也能借助该数据集设计编程协作课程,通过分析智能体与人类的行为差异,帮助学生理解高效协作的工程实践。这些应用显著提升了软件开发流程的自动化水平与协作效率。
衍生相关工作
基于该数据集衍生的经典工作主要集中在智能体行为分析与协作模型构建领域。例如,研究者开发了基于Transformer的智能体身份识别模型,能够从代码提交模式中区分不同智能体与人类开发者。另有工作利用该数据训练了协作质量预测系统,通过分析评论情感与提交复杂度评估团队协作效能。这些研究不仅深化了对智能体协作机制的理解,也为构建下一代智能编程助手提供了方法论支持,推动了人机协同软件开发范式的演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作