RETRO.NET数据集
收藏arXiv2018-07-30 更新2024-07-18 收录
下载链接:
https://zenodo.org/records/1223649
下载链接
链接失效反馈官方服务:
资源简介:
RETRO.NET数据集是由肯塔基大学和加州州立理工大学的研究团队创建的,旨在支持软件工程中的需求追溯任务。该数据集包含66个功能需求、118个代码文件以及一个包含301个链接的答案集。创建过程涉及手动提取和解析需求,以及使用RETRO.NET工具进行需求与代码的追溯。该数据集主要用于评估和改进自动化需求追溯工具的性能,支持软件开发中的变更影响分析、回归测试等关键任务。
The RETRO.NET Dataset was developed by research teams from the University of Kentucky and California State Polytechnic University, aiming to support requirements tracing tasks in software engineering. This dataset contains 66 functional requirements, 118 code files, and an answer set with 301 links. The dataset creation process involves manual extraction and parsing of requirements, as well as the use of the RETRO.NET tool to trace the associations between requirements and code. This dataset is primarily used to evaluate and improve the performance of automated requirements tracing tools, and supports key software development tasks such as change impact analysis and regression testing.
提供机构:
肯塔基大学计算机科学系
创建时间:
2018-07-30
搜集汇总
数据集介绍

构建方式
在软件工程领域,追踪需求与代码间的关联性对于确保系统质量至关重要。RETRO.NET数据集的构建过程体现了严谨的学术方法。研究团队首先从原始RETRO工具的需求文档中提取了66个功能需求,并通过解析脚本将其分割为独立的文本文件,每个文件对应一个需求。随后,从RETRO.NET工具的代码库中筛选出118个C#和Visual Basic源文件,移除非代码文件以确保数据纯度。最终,两位作者独立使用RETRO.NET生成初步追踪矩阵,通过比对与协商达成共识,形成了包含301条链接的黄金标准答案集,确保了数据集的可靠性与一致性。
特点
该数据集在需求追踪研究领域具有鲜明的代表性特征。其源数据包含66个功能需求与118个代码文件,规模适中且结构清晰,便于实验操作。需求文档与代码库均源自实际开发过程,保留了原始注释与自然演化痕迹,增强了数据的真实性与生态效度。答案集以XML与纯文本格式提供,明确标注了需求与代码文件间的静态链接关系。尤为重要的是,数据集反映了软件开发中需求规范滞后于代码实现的常见场景,为研究需求满足度评估与动态追踪生成提供了独特视角。
使用方法
该数据集为需求追踪及相关研究提供了多方面的应用途径。研究者可将其用于评估新型追踪算法的性能,通过对比算法生成的链接与黄金标准,计算召回率、精确度等指标以验证方法有效性。在分析师行为研究中,数据集可作为实验平台,观察分析师在使用不同追踪工具时的效率与准确性变化。此外,数据集支持需求满足度评估任务,通过测试或静态分析验证代码是否实际实现了对应需求。对于软件维护研究,可利用已有追踪矩阵辅助代码变更影响分析,探索自动化追踪在降低维护成本方面的潜力。
背景与挑战
背景概述
在软件工程领域,需求追踪作为确保系统安全性与功能完整性的关键技术,其研究与实践长期面临数据稀缺的困境。RETRO.NET数据集由肯塔基大学的Jane Huffman Hayes、Jared Payne以及加州州立理工大学的Alex Dekhtyar等人于2018年共同构建,旨在为自动化需求追踪工具的评估提供现实基准。该数据集以RETRO.NET追踪工具为核心,包含66项功能需求、118个源代码文件及301条人工标注的黄金标准追踪链接,其诞生不仅缓解了追踪研究领域数据匮乏的现状,更通过有机衍生的软件工程制品,为需求与代码间的关联分析提供了珍贵实验平台,推动了追踪方法在变更影响分析、回归测试等场景的应用验证。
当前挑战
RETRO.NET数据集所应对的核心挑战在于提升需求追踪的自动化精度与可扩展性,具体体现为如何高效建立需求规约与实现代码间的可靠映射关系。在构建过程中,研究团队面临多重困难:一是黄金标准答案集的创建依赖领域专家手动标注与复核,耗时耗力且易受主观判断影响;二是软件工程制品常受限于专有性,真实项目数据难以公开获取;三是数据集规模有限,仅涵盖单一工具的两类制品,其代表性在泛化至大型多制品系统时存在局限。此外,需求与代码间的非线性对应关系——如部分需求未被实现或仅被部分满足——进一步增加了追踪链接确立的复杂性。
常用场景
经典使用场景
在软件工程领域,需求追踪是确保系统安全性与可靠性的核心环节。RETRO.NET数据集以其包含的需求规格、源代码文件及黄金标准追踪链接,为自动化需求追踪方法的研究提供了基准测试平台。该数据集常用于评估信息检索、机器学习等算法在建立需求与代码间关联时的性能,通过计算召回率、精确度等指标,验证新型追踪工具在模拟真实开发环境中的有效性。
衍生相关工作
基于RETRO.NET数据集,研究者已衍生出多项经典工作。例如,在TraceLab实验平台中,该数据集被用作评估多种追踪算法的基准;同时,它促进了如满意度评估、动态追踪生成等新兴研究方向的发展。这些工作不仅扩展了需求追踪在软件维护、缺陷修复等场景的应用深度,也为构建更全面的追踪数据集生态系统奠定了基础。
数据集最近研究
最新研究方向
在软件工程领域,需求追踪作为确保系统安全性与可靠性的核心环节,RETRO.NET数据集的推出为自动化追踪技术的研究提供了宝贵资源。当前,前沿研究聚焦于利用机器学习与自然语言处理技术优化追踪链接的生成与验证,旨在提升追踪精度与效率。热点事件包括将追踪工具集成到持续集成/持续部署(CI/CD)流程中,以支持敏捷开发与DevOps实践,这推动了追踪技术在动态环境中的适应性研究。该数据集的影响在于为学术界与工业界提供了标准化的评估基准,促进了追踪方法的比较与创新,对提升软件维护质量与降低演化成本具有深远意义。
相关研究论文
- 1The REquirements TRacing On target (RETRO).NET Dataset肯塔基大学计算机科学系 · 2018年
以上内容由遇见数据集搜集并总结生成



