RefactoringDataSet

github2019-04-03 更新2024-05-31 收录

下载链接：

https://github.com/ml-in-programming/RefactoringDataSet

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在收集关于好坏重构的数据集。

This project aims to collect a dataset on good and bad refactoring.

创建时间：

2018-08-22

原始信息汇总

RefactoringDataSet

项目目标

收集关于良好和不良重构的数据集。

搜集汇总

数据集介绍

构建方式

RefactoringDataSet数据集的构建旨在通过广泛收集程序重构的实例，涵盖优秀与不当的重构实践。该数据集的构建过程涉及对开源代码库的深入挖掘，筛选出具有明确重构标记的代码片段，并通过专家评审确保其重构的质量与分类的准确性。

特点

该数据集的主要特点是包含了两类重构实例——良好重构与不良重构，为研究者在机器学习编程领域提供了丰富的学习素材。此外，数据集经过严格的筛选与评审，确保了数据的高质量和可用性，适用于机器学习模型训练、评估及算法研究。

使用方法

使用RefactoringDataSet数据集时，研究者应首先了解数据集中的代码片段及其重构类别。数据集可通过其提供的接口或直接从GitHub仓库下载。在应用前，研究者需要预处理数据，确保其与所采用机器学习框架的兼容性，并针对具体的研究目标进行适当的标注和格式化处理。

背景与挑战

背景概述

RefactoringDataSet数据集，诞生于程序语言处理与软件工程研究领域，旨在收集并区分优质与不良的重构实例。该数据集由ml-in-programming组织创建于21世纪初，核心研究问题聚焦于如何通过机器学习技术自动化识别和生成有效的代码重构建议。由于其提供了实证研究的基准，对于提升代码质量、降低软件维护成本具有显著影响，因而在软件工程界产生了广泛的研究与应用价值。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：1)领域知识的复杂性，如何准确标注哪些是良好的重构实践，哪些是不良的，需要深厚的专业背景和经验判断；2)数据集的多样性和规模性，要涵盖不同编程语言、不同项目规模、不同开发阶段的大量代码片段，保证数据集的广泛适用性；3)构建过程中，还需克服数据收集、清洗、标注中的不一致性和错误率问题。在所解决的领域问题方面，自动化代码重构面临着如何准确识别重构机会、如何生成有效的重构建议，以及如何评估重构效果等挑战。

常用场景

经典使用场景

在程序设计领域，代码重构是提高软件质量的关键环节。RefactoringDataSet数据集的构建旨在为机器学习模型提供区分优良重构实践的训练资源，其经典使用场景是作为输入数据集，用以训练分类算法，从而能够自动识别代码重构操作的质量高低。

衍生相关工作

基于RefactoringDataSet，研究者们进一步开展了一系列相关工作，如构建更加复杂的评估模型、探究重构操作对软件维护成本的影响等，这些研究深化了对软件质量保障机制的理解，并促进了相关工具与方法的创新发展。

数据集最近研究