agents_activity

Hugging Face2025-10-28 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/askancv/agents_activity

下载链接

链接失效反馈

官方服务：

资源简介：

README文件描述了多个数据集，每个数据集都有自己的配置和特征。每个数据集都包括有关拉取请求的信息，例如代理、拉取请求ID、URL、所有者、存储库、初始和目标SHA、差异URL、添加的行和存活的行、存活率、代码总行数（LOC）、添加的行、删除的行、换行率、删除率和重叠文件。数据集还包括有关评论和提交的信息，例如ID、拉取请求ID、URL、正文、创建日期、最小化状态、最后编辑日期、发布日期、更新日期和作者信息。数据集分为具有指定示例数量和下载大小的训练集。数据集受MIT许可协议的约束。

创建时间：

2025-10-28

原始信息汇总

数据集概述

基本信息

数据集名称: agents_activity
许可证: MIT
数据来源: https://huggingface.co/datasets/askancv/agents_activity

配置结构

代码活动配置

包含6种代理类型（Claude、Codex、Copilot、Devin、Human、Jules）在3个时间窗口（1w、3d、3w）下的数据：

特征字段: agent, pr_id, pr_url, owner, repo, init_sha, target_sha, diff_url, added_lines_survival, survived_lines, survival_rate, total_LOC, added_lines, deleted_lines, churn_rate, delete_rate, overlap_files
数据规模: 每个配置约1,560个样本，数据大小约640-650KB

评论数据配置

包含6种代理类型的评论数据：

特征字段: id, pr_id, url, body, created_at, is_minimized, minimized_reason, last_edited_at, published_at, updated_at, author（包含id, login, name, typename, url子字段）
数据规模: 样本数从3,693到27,518不等，数据大小从4.6MB到55.8MB

提交数据配置

包含Claude代理的提交数据：

特征字段: id, sha, pr_id, url, committed_date, additions, deletions, authored_date, message_body, message_headline, author_count, committer（包含email, name子字段）, changed_files, authors（包含email, name子字段的列表）
数据规模: 82,755个样本，78.3MB数据大小

数据特征

时间相关: 包含多个时间窗口的数据收集
代码质量指标: 生存率、代码行数变化、代码变动率等
协作信息: 代码审查评论、提交记录
身份信息: 代理类型、仓库信息、作者信息

数据分割

所有配置均使用train分割，无验证集或测试集。

搜集汇总

数据集介绍

构建方式

在软件工程研究领域，agents_activity数据集通过系统化采集GitHub平台的代码变更记录构建而成。该数据集整合了多个智能代理（如Claude、Codex、Copilot等）和人类开发者的Pull Request数据，涵盖代码提交、审查评论等关键活动。构建过程中采用版本控制系统的元数据追踪技术，精确记录每次代码修改的初始提交哈希和目标提交哈希，确保数据溯源完整性。通过解析代码差异文件计算生存率、变更率等量化指标，形成结构化特征矩阵。

特点

该数据集呈现出多维度的软件协作特征，包含代码生存分析、变更模式识别等核心维度。每个配置单元均具备统一的特征架构，涵盖代理类型、代码库信息、行级变更统计等15个结构化字段。数据规模呈现均衡分布，各配置包含1560个训练样本，确保跨代理比较的统计显著性。特别设计的生存率指标为代码质量评估提供量化依据，而重叠文件计数则反映代码冲突的潜在模式。注释和提交子集进一步扩展了协作行为的分析深度。

使用方法

研究者可通过HuggingFace数据集库直接加载特定配置进行实证分析。该数据集支持跨代理代码生成质量的对比研究，通过生存率指标评估代码持久性。机器学习实践者可利用特征矩阵构建代码变更预测模型，或通过注释数据训练智能评审系统。使用时应根据研究目标选择相应配置，如1w/3w时间窗口配置适用于短期行为分析，Comments子集适合自然语言处理任务。数据分片设计便于分布式训练，字段间的关联性为多模态学习提供可能。

背景与挑战

背景概述

在人工智能代理技术迅猛发展的背景下，agents_activity数据集应运而生，旨在系统评估各类代码生成代理在真实软件开发环境中的表现。该数据集通过采集GitHub平台上多组智能代理（包括Claude、Codex、Copilot等）与人类开发者并行的代码提交记录，构建了涵盖代码存活率、变更频率等关键指标的对比框架。其核心研究价值在于量化分析智能代理生成代码的长期维护性，为软件工程自动化研究提供了重要的基准数据支撑。

当前挑战

该数据集面临的领域挑战在于如何准确定义和衡量代码质量的长效性指标，传统代码评估方法难以捕捉智能代理生成代码在持续集成环境中的演化特性。构建过程中需克服多源数据融合的技术难题，包括跨平台提交记录的去重对齐、代码变更链路的完整追溯，以及处理智能代理身份匿名化带来的标注偏差问题。此外，不同代码仓库的许可协议差异也给数据合规使用带来潜在风险。

常用场景

经典使用场景

在软件工程研究领域，agents_activity数据集为代码贡献行为分析提供了重要支撑。该数据集通过记录不同智能代理（如Claude、Codex、Copilot等）与人类开发者在GitHub平台上的代码提交活动，包括代码行数变化、存活率、代码变动频率等关键指标，为研究自动化代码生成工具的实际效能提供了标准化评估基准。研究人员可基于此数据集构建代码质量评估模型，分析不同智能代理在代码维护周期中的表现差异。

实际应用

在实际软件开发场景中，该数据集为团队选择代码生成工具提供了决策依据。开发团队可基于数据集中的代码存活率、变更频率等指标，评估不同智能代理在特定项目环境中的适配性。企业技术负责人能够利用这些数据优化开发流程配置，提升代码审查效率。同时，该数据集还为开发工具厂商提供了产品优化方向，助力提升智能编程助手的实用价值。

衍生相关工作

基于该数据集的研究已催生多项重要成果，包括代码质量预测模型、智能代理效能评估框架等创新工作。研究者利用数据集中的代码演化轨迹，开发了能够预测代码长期存活率的机器学习算法。另有研究团队构建了多维度评估体系，系统比较不同智能代理在复杂软件项目中的表现差异，这些衍生工作显著推进了人工智能辅助编程技术的研究深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集