five

PROMISE数据集|软件工程数据集|非功能性需求数据集

收藏
github2022-03-18 更新2024-05-31 收录
软件工程
非功能性需求
下载链接:
https://github.com/quality-attributes/datasets
下载链接
链接失效反馈
资源简介:
PROMISE数据集是一个软件工程数据库,用于研究和分析与质量属性相关的非功能性需求。该数据集包含15个不同项目的非功能性需求标签,涵盖了功能性、可用性、容错性、法律合规性、外观与感觉、可维护性、操作性、性能、可移植性、可扩展性、安全性、易用性等多个类别。

The PROMISE dataset is a software engineering database designed for researching and analyzing non-functional requirements related to quality attributes. This dataset encompasses non-functional requirement labels from 15 distinct projects, covering a wide range of categories such as functionality, usability, fault tolerance, legal compliance, look and feel, maintainability, operability, performance, portability, scalability, security, and ease of use.
创建时间:
2020-02-26
原始信息汇总

数据集概述

训练集

  • 来源:PROMISE数据集,源自Sayyad Shirabad和T.J. Menzies于2005年发布的软件工程数据库。

  • 数据内容:包含15个不同项目的非功能性需求标签。

  • 类别分布

    类别 数量 百分比
    功能性 (F) 255 40.80%
    可用性 (A) 21 3.36%
    容错性 (FT) 10 1.60%
    法律性 (L) 13 2.08%
    外观与感觉 (LF) 38 6.08%
    可维护性 (MN) 17 2.72%
    操作性 (O) 62 9.92%
    性能 (PE) 54 8.64%
    可移植性 (PO) 1 0.16%
    可扩展性 (SC) 21 3.36%
    安全性 (SE) 66 10.56%
    可用性 (US) 67 10.72%
    总计 625 100%
  • 研究使用子集

    类别 数量 百分比
    可用性 (A) 21 8.20%
    容错性 (FT) 10 3.91%
    可维护性 (MN) 17 6.64%
    性能 (PE) 54 21.09%
    可扩展性 (SC) 21 8.21%
    安全性 (SE) 66 25.78%
    可用性 (US) 67 26.17%
    总计 256 100%

测试集

  • 来源:基于Roxanne E. Miller的书籍《The Quest for Software Requirements》(2009年)。
  • 数据内容:收集了40个与质量属性相关的非功能性需求,涵盖以下类别:
    • 访问安全性
    • 可用性
    • 可用性
    • 可维护性
    • 可扩展性

验证集

AI搜集汇总
数据集介绍
main_image_url
构建方式
PROMISE数据集的构建始于2019年12月14日,通过访问http://ctp.di.fct.unl.pt/RE2017/pages/submission/data_papers/网站获取。该数据集源自Sayyad Shirabad和Menzies于2005年创建的软件工程数据库,包含15个不同项目的非功能性需求标签。训练集经过筛选,仅保留了部分质量属性类别,以解决类别不平衡问题。测试集则基于Miller的《The Quest for Software Requirements》一书,收集了40个与质量属性相关的非功能性需求。验证集则从GitHub上最活跃的开源项目中提取,使用quality-attributes/issue-collector工具收集了最新100个问题。
特点
PROMISE数据集的显著特点在于其涵盖了广泛的质量属性类别,包括可用性、容错性、可维护性、性能、可扩展性、安全性和可用性等。数据集的标签分布显示了不同类别的数量和比例,其中功能性需求占比较大,而其他非功能性需求则相对较少。此外,数据集的构建过程中考虑了类别不平衡问题,通过筛选和调整,确保了数据集的多样性和代表性。
使用方法
PROMISE数据集主要用于训练、测试和验证与质量属性相关的非功能性需求。用户可以通过加载数据集中的训练集、测试集和验证集,进行模型训练和评估。数据集的标签分布提供了对不同质量属性类别的深入理解,有助于研究人员和开发者针对特定需求进行模型优化。此外,数据集的构建方法和来源保证了其可靠性和实用性,适用于多种软件工程研究场景。
背景与挑战
背景概述
PROMISE数据集是由Sayyad Shirabad和Menzies于2005年创建的,旨在支持软件工程领域的非功能性需求(NFR)研究。该数据集包含了来自15个不同项目的625个样本,涵盖了多种质量属性,如可用性、容错性、可维护性等。PROMISE数据集的创建旨在解决软件工程中非功能性需求分类和识别的难题,对提升软件质量评估和需求工程的研究具有重要意义。
当前挑战
PROMISE数据集在构建过程中面临的主要挑战包括数据类别的不平衡性,如某些质量属性的样本数量极少,如可移植性仅占0.16%。此外,数据集的更新和扩展也是一个持续的挑战,尤其是在软件工程领域快速发展的背景下。为了确保数据集的有效性和实用性,研究人员需要不断更新和扩充数据,以反映最新的软件工程实践和技术趋势。
常用场景
经典使用场景
PROMISE数据集在软件工程领域中被广泛用于训练和验证非功能性需求(NFR)分类模型。通过分析GitHub Issues报告中的质量属性标签,研究者可以构建和优化用于识别和分类软件质量属性的机器学习模型。这一经典场景不仅有助于提升模型的准确性,还为软件质量评估提供了科学依据。
解决学术问题
PROMISE数据集解决了软件工程领域中非功能性需求分类的学术难题。通过提供丰富的质量属性标签数据,该数据集帮助研究者深入探讨如何有效识别和分类软件的可用性、性能、安全性等关键属性。这不仅推动了相关理论的发展,还为实际应用中的软件质量保障提供了重要参考。
衍生相关工作
基于PROMISE数据集,研究者们开展了一系列相关工作,包括但不限于非功能性需求自动分类算法的研究、软件质量评估模型的优化以及基于机器学习的软件质量预测系统开发。这些衍生工作不仅丰富了软件工程领域的研究内容,还为实际应用中的软件质量管理提供了新的技术手段。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录

NuminaMath-CoT

数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。

huggingface 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

DeepPCB

DeepPCB是由上海交通大学图像处理与模式识别研究所创建的首个公开PCB缺陷检测数据集,包含1,500对标注了6种常见PCB缺陷位置的图像。数据集通过模板匹配技术确保图像对齐,减少预处理工作量。每对图像包括一个640x640像素的无缺陷模板和一个有缺陷的测试图像。数据集旨在解决PCB制造中的自动缺陷检测问题,提高检测效率和准确性。

arXiv 收录