AISE-TUDelft/MOSAIC-Refactoring

Name: AISE-TUDelft/MOSAIC-Refactoring
Creator: AISE-TUDelft
Published: 2026-04-06 17:50:15
License: 暂无描述

Hugging Face2026-04-06 更新2026-01-03 收录

下载链接：

https://hf-mirror.com/datasets/AISE-TUDelft/MOSAIC-Refactoring

下载链接

链接失效反馈

官方服务：

资源简介：

README内容未直接提供数据集的描述。但根据dataset_info部分列出的特征，可以推断该数据集可能包含GitHub拉取请求数据，包括标题、URL、状态、作者、仓库以及与拉取请求相关的各种指标（例如，添加、删除、更改的文件）。数据集还涉及相关仓库（基础仓库和头仓库）、时间线以及其他相关元数据的信息。存在诸如merged_at、closed_at和review_decision等特征，表明该数据集可能用于分析拉取请求的生命周期和结果。

The README content does not directly provide a description of the dataset. However, based on the features listed in the dataset_info section, it can be inferred that this dataset likely contains GitHub pull request data, including details such as titles, URLs, states, authors, repositories, and various metrics related to the pull requests (e.g., additions, deletions, changed files). The dataset also includes information about the repositories involved (base and head repositories), timelines, and other related metadata. The presence of features like merged_at, closed_at, and review_decision suggests that the dataset may be used for analyzing pull request lifecycle and outcomes.

提供机构：

AISE-TUDelft

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码重构是提升软件质量与可维护性的核心实践。MOSAIC-Refactoring数据集通过系统化地采集GitHub平台上的拉取请求（Pull Requests）构建而成，其构建过程聚焦于识别与重构相关的代码变更。数据集利用GitHub GraphQL API，以时间窗口为筛选条件，精确提取包含文件修改详情、提交历史及元数据的拉取请求记录，确保了数据来源的真实性与时效性。每条数据均经过结构化处理，囊括了从代码差异补丁到仓库状态的完整信息流，为重构研究提供了详实的实证基础。

特点

该数据集在代码重构研究领域展现出鲜明的多维特征。其数据结构设计精良，不仅包含了拉取请求的基本属性如标题、状态和修改文件数，还深度整合了代码变更的具体内容，例如每个文件的增删行数及差异补丁。尤为突出的是，数据集扩展了仓库层级的元数据，涵盖许可证信息、编程语言分布及社区活跃度指标，从而支持从代码语义到项目生态的跨层次分析。这种细粒度的信息整合使得数据集能够同时服务于重构模式识别、自动化工具评估及开发者行为研究等多个方向。

使用方法

研究者可借助该数据集深入探索代码重构的自动化与智能化应用。通过HuggingFace平台加载数据集后，用户能够直接访问结构化的拉取请求条目，利用其中的代码差异补丁训练机器学习模型以识别重构模式或生成重构建议。数据集中的时间序列信息与仓库元数据可用于分析重构实践在项目生命周期中的演变趋势，或评估不同社区规范对重构采纳率的影响。在实际应用中，建议结合自然语言处理技术分析拉取请求描述文本，以关联重构意图与具体代码变更，从而构建端到端的重构分析管道。

背景与挑战

背景概述

在软件工程领域，代码重构作为提升软件质量与可维护性的核心实践，长期依赖于开发者的经验判断。MOSAIC-Refactoring数据集由相关研究机构于近期构建，旨在通过大规模收集GitHub平台上的拉取请求数据，系统性地分析代码重构活动的实际模式与效果。该数据集聚焦于探究自动化重构工具的开发、重构决策的智能化支持以及重构影响的量化评估等核心问题，为软件维护与演化研究提供了宝贵的实证基础，有望推动智能软件工程方法的革新。

当前挑战

该数据集致力于解决代码重构自动化与智能化这一领域核心挑战，具体包括如何从海量、异构的版本历史中精准识别重构实例，以及如何建模重构的复杂语义意图。在构建过程中，面临数据采集与清洗的严峻挑战，例如需要处理拉取请求中非结构化文本与代码变更的混合信息，并克服不同项目间代码风格与提交规范的巨大差异，同时确保数据的时间一致性与隐私合规性，这些因素均对数据集的规模与质量构成了显著制约。

常用场景

经典使用场景

在软件工程领域，代码重构是提升软件质量与可维护性的核心实践。MOSAIC-Refactoring数据集通过收集GitHub平台上的拉取请求（Pull Request）数据，为研究者提供了分析大规模代码重构行为的宝贵资源。该数据集最经典的使用场景在于训练和评估自动化代码重构工具，特别是基于机器学习的方法，能够从真实世界的重构案例中学习代码变更模式，从而辅助开发人员识别并实施有效的重构操作。

实际应用

在实际开发环境中，MOSAIC-Refactoring数据集能够直接赋能于代码审查与质量保障工具。集成开发环境（IDE）插件或持续集成（CI）系统可利用该数据集训练出的模型，自动检测代码中的“坏味道”（Code Smells）并推荐重构方案，从而减轻开发人员负担，提升代码一致性。此外，它还可用于构建教育工具，帮助新手程序员通过分析真实重构案例学习最佳实践，加速其技能成长。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在智能代码重构与变更分析领域。例如，基于深度学习的代码补丁生成模型，能够根据重构意图自动产生候选变更；还有研究利用该数据集进行重构模式挖掘，识别常见的重构操作序列及其上下文。这些工作不仅验证了数据集的实用价值，也进一步拓展了其在程序理解、软件仓库挖掘等子领域的应用边界，形成了持续演进的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集