five

NASA MDP datasets, GitHub datasets|软件缺陷预测数据集|数据分析数据集

收藏
arXiv2019-01-07 更新2024-06-21 收录
软件缺陷预测
数据分析
下载链接:
http://openscience.us/repo/defect/
下载链接
链接失效反馈
资源简介:
本研究使用了NASA MDP和GitHub两个数据集,共计27个数据集,用于评估软件缺陷预测性能。NASA MDP数据集包含多个NASA项目的缺陷数据,而GitHub数据集则从GitHub代码库中收集,涵盖了多种类型的软件项目。这些数据集用于训练和测试不同的分类模型,以预测软件缺陷。研究通过这些数据集探讨了不同评估指标和测试程序对预测准确性的影响,并提出了改进的基准配置。
提供机构:
肯特商学院, 英国肯特大学
创建时间:
2019-01-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
NASA MDP datasets and GitHub datasets were utilized to address the class imbalance problem through oversampling and undersampling techniques. This approach aimed to improve the predictive accuracy of faulty software units. The datasets were collected from the MDP project, which contained defect datasets from various NASA artifacts, and from the GitHub repository, which provided a wealth of open source software projects. To address data quality issues, preprocessing steps were implemented to remove duplicate records and inconsistencies, ensuring the reliability of the data. Additionally, the study employed advanced sampling techniques, such as ADASYN, to balance the class distribution and enhance the usability of the datasets.
特点
The NASA MDP datasets and GitHub datasets offer valuable insights into software defect prediction. They exhibit varying qualities in terms of the number of faulty units, making them suitable for addressing the class imbalance problem. The datasets provide a diverse range of software projects, including control software for observers and open source projects from GitHub. This diversity allows researchers to investigate different software domains and gain a broader understanding of software defect prediction. The datasets are accompanied by detailed documentation, including information on the number of observations, variables, and fault observations, facilitating ease of use and analysis. Furthermore, the datasets support the evaluation of predictive accuracy using metrics such as AUC and H measure, enabling researchers to assess the performance of different classifiers and identify the most effective ones.
使用方法
To utilize the NASA MDP datasets and GitHub datasets, researchers can follow a step-by-step approach. First, the datasets can be downloaded from their respective repositories. Once obtained, data preprocessing steps should be performed to address class imbalance and data quality issues. This may involve oversampling and undersampling techniques, as well as the removal of duplicate records and inconsistencies. After preprocessing, researchers can split the datasets into training and testing sets using a cross-validation approach, such as five-fold cross-validation. This allows for the evaluation of predictive accuracy using metrics like AUC and H measure. Researchers can then apply various classifiers, such as Bayesian approaches, tree-based approaches, support vector machine approaches, neural network approaches, boosting approaches, and others, to build prediction models. The models can be fine-tuned using parameter optimization techniques to improve their performance. Finally, the predictive accuracy of the classifiers can be assessed using statistical tests, such as the Friedman test, post-hoc tests, and Bayesian tests, to determine the significance of performance differences between classifiers. This comprehensive approach enables researchers to gain valuable insights into software defect prediction and select the most suitable classifiers for their specific needs.
背景与挑战
背景概述
在软件工程领域,准确预测软件缺陷是提高软件质量和效率的关键。NASA MDP数据集,由NASA的多个项目提供,是软件缺陷预测研究的重要基准数据集。该数据集包含了来自NASA各种项目的历史软件缺陷数据,为研究人员提供了丰富的实验数据。同时,随着GitHub等开源平台的兴起,研究人员开始使用GitHub上的软件项目数据集来补充传统数据集。这些数据集的创建,为软件缺陷预测研究提供了新的视角和更多的数据支持。
当前挑战
在软件缺陷预测研究中,存在一些挑战。首先,软件缺陷数据集可能存在数据质量问题,例如缺失值、重复记录等。其次,软件缺陷数据集可能存在类别不平衡问题,即缺陷类别的样本数量远小于正常类别。此外,软件缺陷预测模型的评估指标和方法也存在争议,例如ROC曲线和AUC值的适用性。最后,软件缺陷预测模型的复杂性和可解释性之间也存在权衡。
常用场景
经典使用场景
在软件开发过程中,准确预测缺陷代码是软件分析的关键方面。该数据集常用于评估软件缺陷预测性能,通过机器学习模型检测有缺陷的软件代码。经典的使用场景包括构建分类模型来预测软件单元是否可能存在缺陷,以便开发者和管理者可以优先处理这些缺陷,提高软件质量。
衍生相关工作
该数据集衍生了与软件缺陷预测相关的许多经典工作,如使用贝叶斯方法、基于树的分类方法、支持向量机方法、神经网络方法和提升方法等来预测软件缺陷。此外,该数据集还提出了新的评估指标H-measure,以解决AUC指标的潜在局限性,并提供了一种新的贝叶斯测试程序,以获得对软件缺陷预测性能的更深入理解。
数据集最近研究
最新研究方向
在软件缺陷预测领域,最新的研究方向主要集中在提高预测准确性和模型的可解释性。研究人员通过引入新的评估指标,如H-measure,来解决AUC指标在处理不同分类错误成本时的局限性。此外,通过引入新的数据集,如GitHub上的数据集,来评估模型在不同项目上的表现,以及使用贝叶斯测试方法来比较分类器性能,以提供更全面和可靠的预测结果。这些研究进展有助于软件开发人员更好地理解和管理软件缺陷,提高软件质量。
相关研究论文
  • 1
    Evaluating software defect prediction performance: an updated benchmarking study肯特商学院, 英国肯特大学 · 2019年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

2000-2018年中国典型生态系统植物生长节律数据

该数据集涵盖了森林、草地、荒漠、沼泽、农田生态系统2000年-2020年CERN长期定位监测的植物物候数据和主要作生育期数据,包括木本植物、草本植物、水稻、小麦、玉米物候数据表,木本植物数据表有18个台站、291个物种的芽开放期、展叶期、开花始期、开花盛期、果实或种子成熟期、叶秋季变色期和落叶期共计3814条记录;草本植物数据表有22个台站、312个物种的萌动期、开花期、果实或种子成熟期、种子散布期和黄枯期共计3032条数据;水稻数据表有9个台站的出苗期、拔节期、蜡熟期等10个生育期共551条记录;小麦数据表有9个台站不同生育期382条记录;玉米数据表有18个台站不同生育期532条数据。

地球大数据科学工程 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录