PROMISE数据集

github2022-03-18 更新2024-05-31 收录

下载链接：

https://github.com/quality-attributes/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

PROMISE数据集是一个软件工程数据库，用于研究和分析与质量属性相关的非功能性需求。该数据集包含15个不同项目的非功能性需求标签，涵盖了功能性、可用性、容错性、法律合规性、外观与感觉、可维护性、操作性、性能、可移植性、可扩展性、安全性、易用性等多个类别。

The PROMISE dataset is a software engineering database designed for researching and analyzing non-functional requirements related to quality attributes. This dataset encompasses non-functional requirement labels from 15 distinct projects, covering a wide range of categories such as functionality, usability, fault tolerance, legal compliance, look and feel, maintainability, operability, performance, portability, scalability, security, and ease of use.

创建时间：

2020-02-26

原始信息汇总

数据集概述

训练集

来源：PROMISE数据集，源自Sayyad Shirabad和T.J. Menzies于2005年发布的软件工程数据库。
数据内容：包含15个不同项目的非功能性需求标签。

类别分布：

类别	数量	百分比
功能性 (F)	255	40.80%
可用性 (A)	21	3.36%
容错性 (FT)	10	1.60%
法律性 (L)	13	2.08%
外观与感觉 (LF)	38	6.08%
可维护性 (MN)	17	2.72%
操作性 (O)	62	9.92%
性能 (PE)	54	8.64%
可移植性 (PO)	1	0.16%
可扩展性 (SC)	21	3.36%
安全性 (SE)	66	10.56%
可用性 (US)	67	10.72%
总计	625	100%

研究使用子集：

类别	数量	百分比
可用性 (A)	21	8.20%
容错性 (FT)	10	3.91%
可维护性 (MN)	17	6.64%
性能 (PE)	54	21.09%
可扩展性 (SC)	21	8.21%
安全性 (SE)	66	25.78%
可用性 (US)	67	26.17%
总计	256	100%

测试集

来源：基于Roxanne E. Miller的书籍《The Quest for Software Requirements》（2009年）。
数据内容：收集了40个与质量属性相关的非功能性需求，涵盖以下类别：
- 访问安全性
- 可用性
- 可用性
- 可维护性
- 可扩展性

验证集

来源：根据2019年GitHub的Octoverse报告，选择了贡献最多的开源项目。
数据内容：从以下项目中收集数据：
收集限制：每个仓库仅收集最新的100个问题（截至2020年2月20日）。

搜集汇总

数据集介绍

构建方式

PROMISE数据集的构建始于2019年12月14日，通过访问http://ctp.di.fct.unl.pt/RE2017/pages/submission/data_papers/网站获取。该数据集源自Sayyad Shirabad和Menzies于2005年创建的软件工程数据库，包含15个不同项目的非功能性需求标签。训练集经过筛选，仅保留了部分质量属性类别，以解决类别不平衡问题。测试集则基于Miller的《The Quest for Software Requirements》一书，收集了40个与质量属性相关的非功能性需求。验证集则从GitHub上最活跃的开源项目中提取，使用quality-attributes/issue-collector工具收集了最新100个问题。

特点

PROMISE数据集的显著特点在于其涵盖了广泛的质量属性类别，包括可用性、容错性、可维护性、性能、可扩展性、安全性和可用性等。数据集的标签分布显示了不同类别的数量和比例，其中功能性需求占比较大，而其他非功能性需求则相对较少。此外，数据集的构建过程中考虑了类别不平衡问题，通过筛选和调整，确保了数据集的多样性和代表性。

使用方法

PROMISE数据集主要用于训练、测试和验证与质量属性相关的非功能性需求。用户可以通过加载数据集中的训练集、测试集和验证集，进行模型训练和评估。数据集的标签分布提供了对不同质量属性类别的深入理解，有助于研究人员和开发者针对特定需求进行模型优化。此外，数据集的构建方法和来源保证了其可靠性和实用性，适用于多种软件工程研究场景。

背景与挑战

背景概述

PROMISE数据集是由Sayyad Shirabad和Menzies于2005年创建的，旨在支持软件工程领域的非功能性需求（NFR）研究。该数据集包含了来自15个不同项目的625个样本，涵盖了多种质量属性，如可用性、容错性、可维护性等。PROMISE数据集的创建旨在解决软件工程中非功能性需求分类和识别的难题，对提升软件质量评估和需求工程的研究具有重要意义。

当前挑战

PROMISE数据集在构建过程中面临的主要挑战包括数据类别的不平衡性，如某些质量属性的样本数量极少，如可移植性仅占0.16%。此外，数据集的更新和扩展也是一个持续的挑战，尤其是在软件工程领域快速发展的背景下。为了确保数据集的有效性和实用性，研究人员需要不断更新和扩充数据，以反映最新的软件工程实践和技术趋势。

常用场景

经典使用场景

PROMISE数据集在软件工程领域中被广泛用于训练和验证非功能性需求（NFR）分类模型。通过分析GitHub Issues报告中的质量属性标签，研究者可以构建和优化用于识别和分类软件质量属性的机器学习模型。这一经典场景不仅有助于提升模型的准确性，还为软件质量评估提供了科学依据。

解决学术问题

PROMISE数据集解决了软件工程领域中非功能性需求分类的学术难题。通过提供丰富的质量属性标签数据，该数据集帮助研究者深入探讨如何有效识别和分类软件的可用性、性能、安全性等关键属性。这不仅推动了相关理论的发展，还为实际应用中的软件质量保障提供了重要参考。

衍生相关工作

基于PROMISE数据集，研究者们开展了一系列相关工作，包括但不限于非功能性需求自动分类算法的研究、软件质量评估模型的优化以及基于机器学习的软件质量预测系统开发。这些衍生工作不仅丰富了软件工程领域的研究内容，还为实际应用中的软件质量管理提供了新的技术手段。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集