Multilabel-Dataset

github2024-03-18 更新2024-05-31 收录

下载链接：

https://github.com/thiru578/Multilabel-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含445个实例，最初有82个方法指标，经过预处理后减少到46个指标，包含2个类别标签，分别是长方法和特性嫉妒这两种代码异味。

This dataset comprises 445 instances, initially featuring 82 method metrics, which were reduced to 46 metrics after preprocessing. It includes two category labels, namely 'Long Method' and 'Feature Envy', which are types of code smells.

创建时间：

2019-02-07

原始信息汇总

数据集概述

原始数据集信息

实例数量：445个
方法指标数量：82个（详细描述见此处）
类别标签：2个，分别是长方法（Long Method）和特性嫉妒（Feature Envy）

预处理后数据集信息

实例数量：445个
指标数量：46个（其中20个为类别指标，其余为定制指标）
类别标签：2个，分别是长方法（Long Method）和特性嫉妒（Feature Envy）

搜集汇总

数据集介绍

构建方式

Multilabel-Dataset的构建基于软件工程领域的代码异味检测需求，旨在通过方法级别的度量指标识别代码中的不良设计模式。该数据集最初包含445个实例和82个方法度量指标，这些指标来源于公开的软件质量评估资源。在预处理阶段，通过筛选和优化，去除了部分冗余或不相关的度量指标，最终保留了46个关键指标，其中包括20个与类别相关的指标和26个自定义指标。这一构建过程确保了数据集的高效性和针对性，使其能够更好地服务于代码异味检测任务。

特点

Multilabel-Dataset以其多标签分类的特性脱颖而出，专注于识别两种常见的代码异味：长方法（Long Method）和特性嫉妒（Feature Envy）。数据集包含445个实例，每个实例均通过46个精心筛选的度量指标进行描述，这些指标涵盖了方法级别的复杂性和设计特征。数据集的独特之处在于其结合了标准度量指标和自定义指标，为研究者提供了更全面的分析视角。此外，数据集的预处理过程确保了其简洁性和实用性，使其成为代码异味检测研究中的理想选择。

使用方法

Multilabel-Dataset的使用方法主要围绕多标签分类任务展开，适用于机器学习模型训练和代码异味检测算法的验证。研究者可以通过加载数据集，利用其46个度量指标作为特征，构建分类模型以识别长方法和特性嫉妒。数据集的结构清晰，可直接用于常见的机器学习框架，如Scikit-learn或TensorFlow。在使用过程中，建议对数据进行标准化处理，以提高模型的性能。此外，研究者还可以基于自定义指标进行扩展实验，探索更多代码异味检测的可能性。

背景与挑战

背景概述

Multilabel-Dataset数据集聚焦于软件工程领域中的代码异味检测问题，旨在通过多标签分类技术识别代码中的潜在缺陷。该数据集由意大利米兰比可卡大学的研究团队于2010年代初期创建，主要研究人员包括Michele Lanza和Marco D’Ambros等。数据集包含445个实例，每个实例由82个方法度量指标描述，最终目标是对两种常见的代码异味——长方法（Long Method）和特性嫉妒（Feature Envy）进行分类。这一数据集为软件质量评估和代码重构提供了重要的数据支持，推动了代码异味检测领域的研究进展。

当前挑战

Multilabel-Dataset在解决代码异味检测问题时面临多重挑战。首先，代码异味的定义和识别具有主观性，不同开发者对同一段代码的异味判断可能存在差异，这导致标签的标注过程复杂且容易引入偏差。其次，数据集中包含的82个方法度量指标中，部分指标可能存在冗余或相关性较低，如何在预处理阶段有效筛选和优化这些指标，成为构建高质量数据集的关键挑战。此外，多标签分类任务本身要求模型能够同时处理多个类别的预测，这对算法的复杂性和性能提出了更高的要求。这些挑战共同构成了该数据集在应用和研究中的主要难点。

常用场景

经典使用场景

Multilabel-Dataset在软件工程领域中被广泛应用于代码异味检测的研究。该数据集通过提供445个实例和46个方法度量，帮助研究人员识别和分类代码中的长方法和特性嫉妒两种常见代码异味。其多标签分类的特性使得该数据集成为评估和开发新型代码异味检测算法的理想选择。

衍生相关工作

基于Multilabel-Dataset，许多经典的研究工作得以展开。例如，研究人员开发了多种基于机器学习的代码异味检测模型，这些模型在准确性和效率上取得了显著进展。此外，该数据集还促进了代码异味检测领域的标准化和规范化，为后续研究提供了坚实的基础。

数据集最近研究