Software-estimation-datasets
收藏github2025-03-04 更新2025-03-04 收录
下载链接:
https://github.com/Derek-Jones/Software-estimation-datasets
下载链接
链接失效反馈官方服务:
资源简介:
收集的所有公开可用的软件估计数据集,包括相应的实际实施努力。
All publicly available software estimation datasets that have been collected, including their corresponding actual implementation efforts.
创建时间:
2025-03-03
原始信息汇总
数据集概述
数据集名称
- Software estimation data
数据集描述
- 该数据集收集了所有公开可用的软件估计数据集,包括相应的实际实施工作量。
数据集列表
| 数据集名称 | 数据量 | 描述 | 参考文献/来源链接 |
|---|---|---|---|
| CESAW.tgz | 203,621行 | 估计/实际以个人小时为单位的小任务工作量 | arXiv |
| renzo-pomodoro.csv | 17,764行 | 估计/实际以番茄工作法为单位的小任务工作量 | The Shape of Code |
| SiP | 10,100行 | 估计/实际以个人小时为单位的小任务工作量 | arXiv |
| Project-22 | 630行 | 估计以故事点为单位,实际以小时为单位的小任务工作量 | blog post |
| china.arff | 499行 | 估计以功能点为单位,实际以个人小时为单位的大型任务工作量 | Zenodo |
| Huijgens492.zip | 492行 | 估计以功能点为单位,实际以欧元/人小时为单位的中型项目工作量 | - |
| kitchenham.arff | 145行 | 估计以功能点/小时为单位,实际以个人小时为单位的大型项目工作量 | - |
| nasa93.arff | 93行 | 估计以千行代码为单位,实际以个人月为单位的大型项目工作量 | - |
| Desharnais.csv | 80行 | 估计以功能点为单位,实际以个人小时为单位的大型任务工作量 | - |
| UCP_Dataset.csv | 71行 | 估计以用例点为单位,实际以个人小时为单位的大型项目工作量 | - |
| COCOMO-81.csv | 63行 | 估计以代码行数为单位,实际以个人月为单位的大型项目工作量 | - |
| Maxwell.arff | 62行 | 估计以功能点为单位,实际以个人小时为单位的大型项目工作量 | - |
| miyazaki94.csv | 48行 | 估计以代码行数为单位,实际以人工月为单位的大型项目工作量 | - |
| Finnish.arff | 38行 | 估计以功能点为单位,实际以个人月为单位的大型项目工作量 | - |
| Albrecht.arff | 24行 | 估计以功能点为单位,实际以千个人小时为单位的大型项目工作量 | - |
搜集汇总
数据集介绍

构建方式
本数据集的构建汇集了多种软件项目估算的数据,包含实际实施的努力度量。数据集按照数据行数降序排列,涵盖了从个人小时到故事点等多种估算和实际度量单位。数据集的构建涉及了不同来源的整合,如学术论文和项目报告,以确保数据的多元性和可用性。
特点
该数据集的特点在于其多样性、全面性和实用性。包含了从小型任务的个人小时估算到大型项目的函数点估算等多种类型的数据,为软件项目估算研究提供了丰富的实证基础。此外,数据集采用了arff文件格式,内嵌了数据信息,便于直接用于数据挖掘和机器学习任务。
使用方法
使用该数据集时,研究者可以根据具体的研究需求选择相应的数据子集。数据集的arff格式可以直接被Weka等数据挖掘工具读取,便于进行数据分析和模型构建。同时,数据集的README文件提供了详细的数据描述和引用信息,有助于研究者正确理解和引用数据集。
背景与挑战
背景概述
Software Estimation Datasets是一组专门用于软件估计研究的公开数据集,收集了多种软件项目的工作量估计与实际完成工作量的数据。该数据集由Derek M. Jones等多位研究人员创建并维护,旨在为软件工程领域的估计研究提供基础数据。自2023年以来,该数据集包含了多个不同格式的数据文件,如arff文件格式,这些数据格式内嵌了关于数据的详细信息。该数据集对软件估计模型的验证、软件开发工作量的预测以及软件项目管理的准确性评估等领域产生了重要影响。
当前挑战
该数据集在研究领域中面临的挑战主要包括:1)如何准确地将估计值与实际工作量进行比较,以验证和改进软件估计模型;2)数据集构建过程中的数据质量保证,包括数据收集的准确性、完整性和代表性;3)由于软件项目的多样性和复杂性,如何确保所收集的数据集能够覆盖不同类型和规模的项目,从而提高模型的泛化能力;4)数据集的持续更新和维护,以适应软件工程领域的最新发展和变化。
常用场景
经典使用场景
在软件工程领域,Software Estimation Datasets数据集的典型应用场景是进行软件项目工时估计的研究。该数据集汇集了多种来源的实际项目数据,包括任务估计时间和实际完成时间,为研究者提供了丰富的实证基础,以分析和改进软件估计模型。
解决学术问题
该数据集解决了软件工程中估计项目完成所需工时准确性的问题。通过分析这些数据,研究者能够评估和验证不同估计方法的准确性,进而提高软件项目管理的效率和成本控制的精确度,这对于软件行业的健康发展具有重要意义。
衍生相关工作
基于该数据集,学术界衍生出了一系列相关研究工作,包括软件估计模型的构建与验证、软件开发工效分析等。这些研究不仅促进了软件工程领域的理论发展,也为实际软件开发提供了有益的指导和建议。
以上内容由遇见数据集搜集并总结生成



