PROMISE数据集|软件工程数据集|非功能性需求数据集
收藏数据集概述
训练集
-
来源:PROMISE数据集,源自Sayyad Shirabad和T.J. Menzies于2005年发布的软件工程数据库。
-
数据内容:包含15个不同项目的非功能性需求标签。
-
类别分布:
类别 数量 百分比 功能性 (F) 255 40.80% 可用性 (A) 21 3.36% 容错性 (FT) 10 1.60% 法律性 (L) 13 2.08% 外观与感觉 (LF) 38 6.08% 可维护性 (MN) 17 2.72% 操作性 (O) 62 9.92% 性能 (PE) 54 8.64% 可移植性 (PO) 1 0.16% 可扩展性 (SC) 21 3.36% 安全性 (SE) 66 10.56% 可用性 (US) 67 10.72% 总计 625 100% -
研究使用子集:
类别 数量 百分比 可用性 (A) 21 8.20% 容错性 (FT) 10 3.91% 可维护性 (MN) 17 6.64% 性能 (PE) 54 21.09% 可扩展性 (SC) 21 8.21% 安全性 (SE) 66 25.78% 可用性 (US) 67 26.17% 总计 256 100%
测试集
- 来源:基于Roxanne E. Miller的书籍《The Quest for Software Requirements》(2009年)。
- 数据内容:收集了40个与质量属性相关的非功能性需求,涵盖以下类别:
- 访问安全性
- 可用性
- 可用性
- 可维护性
- 可扩展性
验证集
- 来源:根据2019年GitHub的Octoverse报告,选择了贡献最多的开源项目。
- 数据内容:从以下项目中收集数据:
- 收集限制:每个仓库仅收集最新的100个问题(截至2020年2月20日)。

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录
NuminaMath-CoT
数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
huggingface 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录
DeepPCB
DeepPCB是由上海交通大学图像处理与模式识别研究所创建的首个公开PCB缺陷检测数据集,包含1,500对标注了6种常见PCB缺陷位置的图像。数据集通过模板匹配技术确保图像对齐,减少预处理工作量。每对图像包括一个640x640像素的无缺陷模板和一个有缺陷的测试图像。数据集旨在解决PCB制造中的自动缺陷检测问题,提高检测效率和准确性。
arXiv 收录