SNS_features_dataset

github2022-06-28 更新2024-05-31 收录

下载链接：

https://github.com/feiwww/SNS_features_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于缺陷预测的软件网络结构数据集，包含多个软件版本的网络结构特征，如Came、Jedit、Lucene、Synapse和Xerces等。数据集提供了32种软件网络结构特征，包括18种全局网络结构特征和14种自我网络结构特征。

A dataset for defect prediction in software network structures, encompassing network structural features across multiple software versions such as Came, Jedit, Lucene, Synapse, and Xerces. The dataset offers 32 distinct software network structural features, including 18 global network structural features and 14 ego network structural features.

创建时间：

2018-08-02

原始信息汇总

SNS_features_dataset 概述

数据集描述

数据集名称：SNS_features_dataset
数据集用途：用于软件缺陷预测的软件网络结构数据集
包含软件版本：
- Came(1.0/1.4/1.6)
- Jedit(3.2/4.1/4.2/4.3)
- Lucene(2.0/2.2/2.4)
- Synapse(1.0/1.1/1.2)
- Xerces(1.2/1.3/1.4)

缺陷信息来源

来源：tera-PROMISE repository (http://openscience.us/repo/defect/)

度量指标

总指标数：32个软件网络结构特征
- 全局网络结构特征：18个
- 自我网络结构特征：14个

全局网络度量

度量名称：
- 度(Degree)
- 出度(Out degree)
- 入度(In degree)
- 波纹度(Ripple degree)
- 平均邻居度(Average neighbor degree)
- 介数(Betweenness)
- 页面排名(Pagerank)
- 聚类(Clustering)
- 平方聚类(Square clustering)
- 接近中心性(Closeness centrality)
- 度中心性(Degree_centrality)
- 出度中心性(Out degree centrality)
- 入度中心性(In degree centrality)
- 介数中心性(Betweenness centrality)
- 负载中心性(Load centrality)
- 团数(Number of cliques)
- 核心数(Core number)
- 偏心率(Eccentricity)

自我网络度量

度量名称：
- 大小(Size)
- 关系(Ties)
- 对(Pairs)
- 密度(Density)
- 弱组件数(nWeakComponents)
- 弱组件比率(pWeakComponents)
- 两步可达性(2StepReach)
- 两步预达性(2StepPreach)
- 可达效率(Reach_efficiency)
- 经纪人(Broker)
- 经纪人比率(nBroker)
- 闭合三角形数(nClose)
- 自我介数(EgoBetweenness)
- 自我介数比率(nEgoBetweenness)

搜集汇总

数据集介绍

构建方式

SNS_features_dataset的构建基于多个开源软件项目的源代码，包括Came、Jedit、Lucene、Synapse和Xerces等不同版本。通过分析这些项目的源代码，提取了32个软件网络结构特征，其中18个为全局网络结构特征，14个为自我网络结构特征。缺陷信息来源于tera-PROMISE仓库，确保了数据的可靠性和权威性。

特点

该数据集的特点在于其全面覆盖了软件网络结构的多个维度，包括节点的度、中心性、聚类系数等全局特征，以及自我网络的规模、密度、可达性等局部特征。这些特征通过复杂的网络分析方法计算得出，能够有效反映软件系统的结构复杂性，为缺陷预测提供了丰富的特征空间。

使用方法

SNS_features_dataset的使用方法主要围绕软件缺陷预测展开。研究人员可以通过加载数据集，利用机器学习或统计模型对提取的网络结构特征进行分析，从而预测软件中的潜在缺陷。数据集中的特征可以直接用于模型训练，或作为特征工程的输入，进一步优化预测效果。

背景与挑战

背景概述

SNS_features_dataset是一个专注于软件缺陷预测的数据集，由多个开源软件项目的网络结构特征组成。该数据集涵盖了Came、Jedit、Lucene、Synapse和Xerces等多个软件项目的不同版本，旨在通过分析软件网络结构特征来预测潜在的缺陷。数据集的缺陷信息来源于tera-PROMISE仓库，提供了丰富的软件缺陷数据。该数据集的核心研究问题在于如何利用软件网络结构的全局和局部特征来有效预测软件缺陷，从而提升软件质量。其影响力主要体现在为软件工程领域的缺陷预测研究提供了重要的数据支持，推动了基于网络结构的缺陷预测方法的发展。

当前挑战

SNS_features_dataset在解决软件缺陷预测问题时面临多重挑战。首先，软件网络结构的复杂性使得特征提取和选择变得极为困难，如何从32个全局和局部网络结构特征中筛选出最具预测能力的特征是一个关键问题。其次，数据集的构建过程中，如何确保不同软件项目版本之间的数据一致性以及特征计算的准确性，也是研究人员需要克服的技术难题。此外，软件缺陷预测的准确性高度依赖于数据的质量和特征的代表性，如何在有限的样本中提取出能够泛化的特征，是另一个亟待解决的挑战。这些挑战不仅影响了数据集的实用性，也对相关领域的研究提出了更高的要求。

常用场景

经典使用场景

SNS_features_dataset广泛应用于软件缺陷预测领域，特别是在分析软件网络结构特征与缺陷关联性方面。研究者通过该数据集中的全局网络结构和自我网络结构特征，能够深入理解软件模块间的依赖关系和交互模式，从而为缺陷预测模型提供强有力的数据支持。

解决学术问题

该数据集解决了软件工程领域中的一个核心问题：如何通过软件网络结构特征有效预测软件缺陷。通过提供32种详细的网络结构特征，研究者能够量化软件模块的复杂性和依赖关系，进而构建更精确的缺陷预测模型。这一数据集为软件质量保障和缺陷预防提供了重要的理论依据和实践工具。

衍生相关工作

基于SNS_features_dataset，许多经典研究工作得以展开。例如，研究者利用该数据集开发了多种基于机器学习的缺陷预测模型，如支持向量机、随机森林和深度学习模型。这些模型在多个开源软件项目上进行了验证，显著提升了缺陷预测的准确性和鲁棒性。此外，该数据集还推动了软件网络结构分析领域的发展，为后续研究提供了丰富的数据资源和参考框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集