five

evalstate/transformers-pr

收藏
Hugging Face2026-04-25 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/evalstate/transformers-pr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Transformers PR Dataset,包含来自huggingface/transformers的规范化快照数据,涵盖issues、pull requests、comments、reviews以及链接数据等。数据集包含多个配置文件,如issues.parquet、pull_requests.parquet等。该数据集可用于重复PR和issue分析、分类和排名实验以及评估集创建等用途。需要注意的是,数据集仅包含原始数据,无标签或审核决策,且包含PR元数据、文件级补丁块和完整统一差异,但不包含更改文件的完整内容。

The dataset is named Transformers PR Dataset and contains normalized snapshots of issues, pull requests, comments, reviews, and linkage data from huggingface/transformers. The dataset includes multiple config files such as issues.parquet, pull_requests.parquet, etc. It can be used for duplicate PR and issue analysis, triage and ranking experiments, and eval set creation. Note that the dataset contains raw data only with no labels or moderation decisions, includes PR metadata, file-level patch hunks, and full unified diffs, but does not include full file contents for changed files.
提供机构:
evalstate
搜集汇总
数据集介绍
main_image_url
构建方式
Transformers PR数据集源于对huggingface/transformers仓库中各类协作数据的系统性采集与规范化整理。该数据集共包含十一个核心配置,涵盖issues、pull_requests、issue_comments、pr_comments、pr_reviews、pr_files、pr_diffs、review_comments、links、events及new_contributors等实体,每一部分均保存为独立的parquet文件并统一提供训练集分割。数据快照采用固定时间戳记录,确保了数据的时间一致性与可复现性,为后续分析提供了结构清晰、维度丰富的原始数据基础。
特点
该数据集最显著的特点在于其多维度的结构化设计。它不仅涵盖了问题与合并请求的元数据与讨论内容,还包含了代码审阅意见、文件变更层级、统一差异片段以及事件流与贡献者关系网络。尤为值得关注的是,数据集中内置了issue与PR之间的链接关系,以及新增贡献者信息,为开发者行为分析与协作模式挖掘提供了独特视角。所有数据均为原始快照,不包含人工标注与筛选,保留了社区互动的真实面貌。
使用方法
数据集可通过HuggingFace Datasets库直接加载,用户只需指定相应的配置名称即可获取特定类型的数据。例如,加载issues数据可使用load_dataset('transformers-pr', 'issues'),加载PR评论则对应load_dataset('transformers-pr', 'pr_comments')。该数据集适用于重复问题与PR的检测分析、工单分类与排序实验、以及评估集的构建等任务场景。数据以parquet格式存储,便于高效读取与分布式处理,研究人员可在此基础上自行定义标签体系与评估标准。
背景与挑战
背景概述
Transformers PR数据集由Hugging Face团队于2025年创建,聚焦于开源项目huggingface/transformers的开发协作过程。该数据集系统性地收集了该项目的议题、拉取请求、评论、代码审查及事件关联数据,旨在为开源软件工程研究提供结构化的协作信息。其核心研究问题涵盖重复拉取请求与议题分析、分类与排序实验以及评估集构建,为理解大型开源项目中开发者协作模式与代码审查流程提供了宝贵资源。该数据集的影响力在于它提供了一个标准化且丰富的软件仓库元数据来源,推动了软件开发工具与人工智能辅助代码审查等领域的研究。
当前挑战
该数据集所解决的领域挑战在于,开源协作数据往往分散非结构化,难以进行系统分析。Transformers PR数据集通过结构化快照解决了这一难题,使得重复PR识别、议题自动分类等任务成为可能。构建过程中遇到的挑战包括:从海量实时数据中提取一致性快照,处理不同数据源(如PR、评论、代码差异)间的关联映射,以及确保数据完整性而不包含文件完整内容与人工标签。这些挑战促使数据集采用了精细的派生视图设计,平衡了数据丰富度与使用便捷性。
常用场景
经典使用场景
Transformers PR数据集是面向开源协作生态研究的宝贵资源,专门针对huggingface/transformers仓库中的议题与合并请求流程进行规范化快照。该数据集在软件工程与自然语言处理交叉领域被广泛应用,经典使用场景包括重复议题与重复PR的自动检测、开发者工单优先级排序实验,以及评估集构建。通过结构化的议题、PR、评论、审阅和事件数据,研究者可深入分析开源社区协作模式与决策机制。
解决学术问题
该数据集有效解决了开源软件工程中若干关键学术问题。其可支撑对合并请求审核延迟、议题分派效率、贡献者行为模式等核心议题的实证研究。通过丰富的元数据与关联信息,学者能够定量分析影响PR接受率的关键因素,探索社区治理对软件质量与演进的影响。这些研究不仅深化了对大规模开源项目协作机制的理论认知,也为设计更高效的代码审查工具与开发者协作平台奠定了数据基础。
衍生相关工作
该数据集衍生了一系列有影响力的研究工作。围绕其内容,学界探索了如何利用预训练语言模型对PR描述与代码变更进行语义表示,进而实现自动化的PR分类或冲突预测。此外,基于数据集中的评论与审阅历史,催生了针对开源社区审查者推荐系统的研究,以及利用图神经网络对议题-关联网络进行建模的工作。这些衍生成果共同推动了软件工程数据驱动研究范式的成熟与扩展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作