thearod5/dronology
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/thearod5/dronology
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: artifacts
data_files: artifacts.csv
- config_name: traces
data_files: traces.csv
- config_name: matrices
data_files: matrices.csv
license: mit
task_categories:
- sentence-similarity
- text-classification
language:
- en
tags:
- software traceability
---
该数据集的元信息如下:
### 配置项
共包含3个数据集配置:
1. 配置名称为 `artifacts`,对应数据文件为 `artifacts.csv`
2. 配置名称为 `traces`,对应数据文件为 `traces.csv`
3. 配置名称为 `matrices`,对应数据文件为 `matrices.csv`
### 许可证
MIT许可证
### 任务类别
句子相似度、文本分类
### 语言
英语
### 标签
软件可追溯性
提供机构:
thearod5
原始信息汇总
数据集概述
数据集配置
- artifacts: 包含
artifacts.csv文件。 - traces: 包含
traces.csv文件。 - matrices: 包含
matrices.csv文件。
许可证
- MIT 许可证。
任务类别
- 句子相似度
- 文本分类
语言
- 英语
标签
- 软件可追溯性
搜集汇总
数据集介绍

构建方式
在软件工程领域,追踪软件需求与实现之间的关联性至关重要。该数据集通过系统化收集软件项目中的工件、追踪记录及关联矩阵,构建了全面的软件可追踪性数据。具体而言,它整合了来自实际开发环境的源代码、文档和测试用例,利用自动化工具提取并标准化这些元素,形成结构化的CSV文件,确保了数据的完整性和一致性,为后续分析奠定了坚实基础。
特点
该数据集以软件可追踪性为核心,覆盖了多种软件工程任务,如句子相似度与文本分类。其特点在于提供了多维度配置,包括工件、追踪路径和关联矩阵,支持跨领域研究。数据以英文呈现,标签明确,便于机器学习模型训练与评估,同时遵循MIT许可协议,促进了学术与工业界的开放协作。
使用方法
用户可通过HuggingFace平台直接访问该数据集,根据配置名称加载相应的CSV文件进行实验。在软件可追踪性研究中,可将其应用于需求匹配、缺陷定位等任务,通过预处理和特征提取,结合现有模型进行训练与验证。数据集的结构化设计简化了集成流程,支持快速原型开发与性能评估。
背景与挑战
背景概述
在软件工程领域,追踪性分析是确保系统开发质量与维护效率的关键技术,它通过建立软件制品间的关联关系来支持需求验证、变更影响评估等核心活动。Dronology数据集由thearod5团队于近年创建,聚焦于无人机系统这一复杂嵌入式软件的追踪性研究,旨在为自动化追踪链接恢复提供结构化数据支持。该数据集涵盖了需求文档、设计模型、源代码及测试用例等多种软件制品,并标注了它们之间的语义关联,为基于机器学习的追踪性分析研究提供了重要基准,推动了软件维护智能化的发展。
当前挑战
Dronology数据集致力于解决软件追踪性中自动化链接恢复的挑战,具体包括处理异构软件制品间的语义鸿沟、应对无人机领域专业术语带来的领域适应性问题,以及从非结构化文本中提取精确关联的困难。在构建过程中,研究人员面临标注一致性保障的难题,需协调多领域专家进行人工验证;同时,数据集的规模与多样性平衡亦构成挑战,既要覆盖无人机系统的典型开发场景,又需确保标注质量以支撑模型训练与评估。
常用场景
经典使用场景
在软件工程领域,软件可追踪性研究致力于建立需求、设计、代码和测试等软件制品之间的关联关系。thearod5/dronology数据集通过提供无人机系统开发中的制品、追踪矩阵和追踪路径数据,为研究者构建了一个标准化的实验平台。该数据集常用于评估和验证自动化可追踪性链接生成算法的性能,支持基于信息检索、机器学习和自然语言处理技术的链接预测模型训练与测试,成为该领域基准测试的核心资源。
实际应用
在无人机等安全关键系统的开发中,维护需求、代码和测试用例之间的可追踪性对于确保合规性、降低错误和简化维护至关重要。该数据集可直接用于训练和部署智能可追踪性维护工具,辅助开发团队自动化建立和验证制品链接,从而提升开发效率与软件质量。其应用有助于在持续集成环境中实现可追踪性的实时监控与管理。
衍生相关工作
基于thearod5/dronology数据集,学术界已衍生出一系列经典研究工作。这些工作主要集中在改进基于向量空间模型和深度学习(如BERT)的可追踪性链接恢复方法上。部分研究利用其追踪路径数据探索链接的演化模式,另一些则结合制品文本特征与结构信息,设计出更鲁棒的混合推荐模型。这些成果显著推动了自动化软件可追踪性领域的算法进步与评估标准化。
以上内容由遇见数据集搜集并总结生成



