OSAPRD

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/OSAPRD/OSAPRD

下载链接

链接失效反馈

官方服务：

资源简介：

Agentic Pull Request Dataset（智能体Pull Request数据集）是一个包含GitHub上Pull请求（PR）记录的大规模数据集。该数据集总计包含4,910,698个Pull Requests，其中4,392,818个为智能体生成的PR（来自Claude、Codegen、Codex、Copilot、Cosine、Cursor、Devin、Jules、Junie和OpenHands这10个不同的智能体），另有517,880个为人类生成的PR作为对比。数据集提供了详细的统计信息，包括每个来源的PR数量、合并PR数量、涉及仓库数量、总新增代码行数和总删除代码行数。数据集包含三个核心数据表：PullRequestRecords（记录PR内容、状态、作者元数据、仓库引用、时间戳和活动摘要）、FileChangeRecords（记录每个变更文件的详细信息，包括文件路径、新增/删除行数、内容URL和补丁元数据）和RepositoryRecords（存储仓库所有权、可见性、状态标志、流行度指标、编程语言、主题、许可证和时间戳等信息）。此外，还包括User、License和RepositoryPeek三个辅助实体表，用于存储用户、许可证和轻量级仓库引用信息。数据以Parquet格式存储，按智能体类型和实体类型组织目录结构，可通过HuggingFace datasets库按配置或按数据目录两种方式加载。该数据集适用于研究智能体与人类在代码协作行为上的差异、智能体代码生成质量评估、版本控制系统分析等任务。

Agentic Pull Request Dataset is a large-scale dataset containing GitHub Pull Request (PR) records. The dataset totals 4,910,698 Pull Requests, with 4,392,818 being agent-generated PRs (from 10 different agents: Claude, Codegen, Codex, Copilot, Cosine, Cursor, Devin, Jules, Junie, and OpenHands), and 517,880 human-generated PRs for comparison. It provides detailed statistics, including the number of PRs per source, merged PRs, involved repositories, total lines of code added, and total lines of code deleted. The dataset is structured with three core data tables: PullRequestRecords (recording PR content, status, author metadata, repository references, timestamps, and activity summaries), FileChangeRecords (recording detailed information for each changed file, including file path, lines added/deleted, content URL, and patch metadata), and RepositoryRecords (storing repository ownership, visibility, status flags, popularity metrics, programming languages, topics, licenses, and timestamps). Additionally, it includes three auxiliary entity tables: User, License, and RepositoryPeek, for storing user, license, and lightweight repository reference information. The data is stored in Parquet format, organized by agent type and entity type in a directory structure, and can be loaded via the HuggingFace datasets library either by configuration or by data directory. This dataset is suitable for tasks such as studying differences in code collaboration behavior between agents and humans, evaluating agent code generation quality, and analyzing version control systems.

创建时间：

2026-06-29

原始信息汇总

数据集名称

Agentic Pull Request Dataset (OSAPRD)

数据集概况

该数据集共包含 4,910,698 个 Pull Requests，由10 个 AI 智能体（Agents） 生成的 4,392,818 个 PR 和人类撰写的 517,880 个 PR 组成。AI 智能体包括：Claude、Codegen、Codex、Copilot、Cosine、Cursor、Devin、Jules、Junie 和 OpenHands。

数据统计摘要

分类	Pull Requests	已合并 PR	仓库数量	总增行数	总删行数
人类	517880	384681	314654	4520137534	1791798652
Claude	693698	631891	103572	2065311631	665993688
Codegen	6233	2912	1577	57564973	8889250
Codex	2509669	2174161	206407	1069190035	529094827
Copilot	758266	509602	181378	2245727932	1026718121
Cosine	2675	1443	531	2129986	578729
Cursor	201428	111454	57855	3752031314	949422873
Devin	46292	29441	6778	183553752	59538810
Jules	162537	113723	30148	205905195	86992626
Junie	9629	828	8868	1272512	93907
OpenHands	2391	1735	667	14186669	1732607
所有智能体	4392818	3577190	597781	9596873999	3329055438
总计	4910698	3961871	863819	14117011533	5120854090

注意：仓库数量已按不同分类去重，各分类之和可能不等于总计。

数据集结构

数据集包含三种实体类型，以 Parquet 格式存储：

PullRequestRecords：记录 Pull Request 的内容、状态、作者元数据、仓库引用、时间戳以及摘要活动计数。
FileChangeRecords：每行记录一个变更的文件，包含文件路径、增/删行数、内容 URL 以及补丁级别的元数据。
RepositoryRecords：存储仓库的归属信息、可见性、状态标记、流行度指标、编程语言、主题标签、许可协议、时间戳以及描述信息。

此外，还包含以下嵌套实体：

User：存储简洁的 GitHub 用户元数据，包括用户 ID、登录名、显示名称、类型和个人资料 URL。
License：存储仓库的许可信息，包括许可证标识、名称、SPDX 标识符和 URL。
RepositoryPeek：存储 Pull Request 记录中使用的轻量级仓库引用，包括仓库 ID、名称和 URL。

数据配置

该数据集提供多个配置，每个配置对应一个智能体名称和实体类型的组合。配置命名规则为：<智能体>_<实体>_records_02-06-2026。所有配置均使用 train 分割，数据以 Parquet 格式存储。

智能体列表：claude、codegen、codex、copilot、cosine、cursor、devin、humans、jules、junie、openhands
实体列表：pull_request_records、file_change_records、repository_records

数据加载示例

python from datasets import load_dataset

按配置加载 Claude 数据

claude_pull_request_records = load_dataset(OSAPRD/OSAPRD, claude_pull_request_records_02-06-2026, split=train) claude_file_change_records = load_dataset(OSAPRD/OSAPRD, claude_file_change_records_02-06-2026, split=train) claude_repository_records = load_dataset(OSAPRD/OSAPRD, claude_repository_records_02-06-2026, split=train)

按数据目录加载 Claude 数据

claude_pull_request_records = load_dataset(OSAPRD/OSAPRD, data_dir=data/claude/PullRequestRecords, split=train) claude_file_change_records = load_dataset(OSAPRD/OSAPRD, data_dir=data/claude/FileChangeRecords, split=train) claude_repository_records = load_dataset(OSAPRD/OSAPRD, data_dir=data/claude/RepositoryRecords, split=train)

搜集汇总

数据集介绍

构建方式

OSAPRD数据集汇聚了来自10种主流代码智能体（Claude、Codegen、Codex、Copilot、Cosine、Cursor、Devin、Jules、Junie、OpenHands）及人类开发者共计逾490万条拉取请求记录。每一智能体与人类的数据均被划分为三类结构化实体：PullRequestRecords、FileChangeRecords和RepositoryRecords，分别存储拉取请求的元信息、文件变更细节及仓库上下文。这些记录以Parquet格式按智能体与实体分类存储，便于高效加载与检索。

特点

该数据集规模宏大，涵盖约440万条智能体生成的拉取请求与52万条人类提交流程，囊括超过86万个独立仓库。数据不仅记录了拉取请求的合并状态、变更行数及时间戳，还提供了细粒度的文件级别增删改查信息以及仓库的许可协议、编程语言、流行度等属性。其结构化设计（含嵌套的User、License与RepositoryPeek对象）为深入对比分析智能体与人类软件开发行为提供了坚实的数据基础。

使用方法

用户可通过HuggingFace的datasets库便捷加载该数据集。以Claude为例，既可使用配置文件名称（如'claude_pull_request_records_02-06-2026'）指定子集，也可通过data_dir参数直接指向对应Parquet文件所在目录。同等方式适用于其他9个智能体及人类数据，只需将配置名中的'claude'替换为目标智能体名称即可。每个配置默认仅提供训练集拆分，三条实体记录（PR、文件变更、仓库）可独立加载并交叉关联分析。

背景与挑战

背景概述

随着大型语言模型（LLM）在代码生成领域的迅猛发展，如Claude、Codex、Copilot等智能编程助手已深度融入软件开发流程。然而，针对这些自动生成代码的复杂协同行为——尤其是拉取请求（Pull Request）的提交、合并与文件变更模式——缺乏系统性的基准评估数据集。OSAPRD（Agentic Pull Request Dataset）由2026年2月发布，汇集了来自10种主流AI编程代理（包括Claude、Codegen、Codex、Copilot等）的超439万条代理-authored PR记录，以及近52万条人类-authored PR记录，覆盖超过86万个不同仓库。该数据集旨在为代码生成代理的行为分析、性能评估与人机协作研究提供大规模、多源的高质量数据基础，对软件工程自动化研究领域具有重要的推动作用。

当前挑战

该数据集面临的核心挑战在于，亟需解决对多代理代码生成行为进行系统化、标准化度量的领域问题。不同代理生成的PR在合并率、代码变更规模及模式上存在显著差异（例如Codex合并率高达86.6%，而Junie仅8.6%），需要精细的分析框架来区分代理能力差异及潜在偏见。构建过程中，挑战包括从GitHub海量数据中准确识别并区分代理与人工作业的PR，确保数据源的纯净性；跨异构代理（如Claude、Cursor、Devin等）统一数据模式（Schema）并处理庞大文件变更记录（超50亿行增删）的存储与索引效率；以及维护版本间一致性以避免数据遗漏或重复，这要求复杂的流水线设计与资源调度策略。

常用场景

经典使用场景

在人工智能与软件工程交叉领域，OSAPRD数据集为探究代码生成模型的实际表现提供了前所未有的数据支撑。该数据集收录了来自Claude、Codex、Copilot等十种主流AI编码助手以及人类开发者提交的逾490万条拉取请求记录，涵盖代码变更、仓库元数据等多维信息。研究者可基于此数据集开展代码生成模型的性能基准测试，通过对比AI与人类在代码合并率、修改规模、仓库多样性等方面的差异，系统评估各类模型在真实开发环境中的协作效能。其丰富的实体关系设计，包括拉取请求、文件变更和仓库记录三类结构化数据，为构建代码生成质量评估框架、分析AI辅助编码的行为模式提供了标准化的数据基础。

衍生相关工作

基于OSAPRD数据集的丰富内容，已催生出一系列具有影响力的研究工作。数据集中分属十个AI代理与人类群体的结构化记录，为研究者构建跨模型代码生成模式对比分析框架提供了核心材料，推动了AI编码行为量化研究的前沿进展。多实体关联的设计思路，启发了学界提出融合拉取请求语义与代码变更特征的深度学习方法，用于预测AI代码的合并概率与潜在风险。此外，该数据集的发布标准与数据模式，已成为后续大规模软件工程异构数据采集工作的重要参照，引导着代码智能评估领域向更系统化、标准化的方向稳步演进。

数据集最近研究