humanside_update
收藏Hugging Face2026-02-19 更新2026-02-20 收录
下载链接:
https://huggingface.co/datasets/Razvan27/humanside_update
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个与GitHub拉取请求和仓库相关的数据集配置。数据集按不同组织(Amazon、Cosine、OpenHandsB、Tembo)分类,包含拉取请求和仓库两类数据。拉取请求数据包含ID、标题、URL、状态、创建时间、作者信息、文件变更、评论、审查等丰富元数据;仓库数据则包含ID、名称、URL、星标数、分支数、语言、许可证、描述等信息。每个数据集配置详细列出了所有特征及其数据类型,并提供了训练集的分割信息(样本数量和字节大小)。这些数据适用于软件工程研究、开源协作分析、代码审查流程优化等应用场景。
创建时间:
2026-02-16
搜集汇总
数据集介绍
构建方式
在软件工程协作领域,humanside_update数据集通过系统化采集GitHub平台上的拉取请求(Pull Requests)构建而成。该数据集聚焦于多个知名人工智能辅助编程工具相关的代码仓库,例如Amazon、Claude、Codegen等,采用结构化数据抽取方法,从每个拉取请求中捕获了包括元数据、作者信息、代码变更详情、时间线事件以及仓库关联在内的多维特征。构建过程确保了数据的原始性与完整性,为研究人机协同编程行为提供了详实的实证基础。
特点
该数据集的核心特征在于其精细化的多维度架构与丰富的上下文信息。每个数据条目不仅包含拉取请求的标题、描述、状态等基本属性,还深度整合了作者的社会化编码画像、详细的文件级变更记录(如增删行数、文件路径)、以及关联的标签与评审决策。数据集按不同的工具生态进行配置划分,使得跨工具的比较分析成为可能,其结构化嵌套设计尤其适合用于探索代码审查效率、贡献者行为模式以及自动化工具对协作流程的影响等前沿课题。
使用方法
研究人员可利用该数据集开展广泛的实证软件工程研究。通过加载特定的配置名称,例如`PullRequests_Copilot`,即可访问对应工具生态的拉取请求集合。数据中的数值型字段(如`additions`、`deletions`)与分类字段(如`state`、`review_decision`)可直接用于统计分析或构建预测模型。复杂的嵌套结构,如`author`中的详细资料和`files`中的变更列表,支持深入的用户行为画像与代码变更模式挖掘。该数据集适用于训练机器学习模型以预测拉取请求的合并结果、分析贡献者活跃度,或作为基准数据评估不同开发工具的协作效能。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,代码生成与协作工具日益普及,对开源软件开发流程的影响亟待量化评估。humanside_update数据集应运而生,旨在系统性地探究人工智能辅助编程工具在GitHub拉取请求(Pull Request)中的实际应用与影响。该数据集由研究团队通过收集多个知名AI编程助手(如Claude、Codex、Copilot等)相关仓库的拉取请求数据构建而成,其核心研究问题聚焦于分析AI工具引入后代码贡献的模式变化、协作效率以及代码质量等维度。通过整合丰富的元数据,包括提交信息、文件变更、作者背景及交互历史,该数据集为实证研究AI在软件开发中的作用提供了关键基础,推动了软件工程智能化研究的深入发展。
当前挑战
该数据集致力于解决软件工程中AI辅助编程影响评估这一复杂问题,其首要挑战在于如何从海量、异构的拉取请求数据中精准识别AI工具的使用痕迹与贡献模式,并建立可靠的因果推断模型。构建过程中的挑战同样显著,数据采集需克服GitHub API的速率限制与数据完整性约束,确保跨多个仓库与时间维度的数据一致性与代表性。此外,数据清洗与标注面临巨大困难,例如区分人类与AI的混合贡献、处理非结构化文本(如PR描述与评论)、以及统一不同AI工具配置间的模式差异,这些都对数据集的可靠性与后续研究的有效性构成了严峻考验。
常用场景
经典使用场景
在软件工程与协作开发领域,humanside_update数据集以其详尽的Pull Request元数据,为研究代码审查流程与团队协作模式提供了经典范例。该数据集通过整合多个知名AI辅助开发工具(如Claude、Copilot等)的Pull Request记录,使得研究者能够深入分析代码变更的采纳机制、审查效率以及开发者行为特征,从而揭示现代分布式开发环境中人机协同的复杂动态。
解决学术问题
该数据集有效解决了软件工程研究中关于代码审查自动化、贡献质量评估以及协作效率量化等核心学术问题。通过提供结构化且跨项目的Pull Request数据,它支持对审查决策、合并时间、变更规模等关键指标进行实证分析,为理解AI辅助工具如何影响开发工作流提供了可靠证据,进而推动了智能软件工程与协作计算领域的理论发展。
衍生相关工作
基于该数据集衍生的经典工作包括开发预测Pull Request接受率的机器学习模型、构建代码变更影响分析框架以及设计智能审查推荐系统。这些研究不仅深化了对开发者行为与工具交互的理解,还催生了如ReviewBot、CodeBERT等创新工具,显著促进了自动化软件工程与协作支持系统的技术进步。
以上内容由遇见数据集搜集并总结生成



