agile sprints, delay issues, story points

github2022-01-06 更新2024-05-31 收录

下载链接：

https://github.com/kleinwolke/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集包括敏捷冲刺数据、延迟问题数据和故事点估计数据，分别用于预测迭代开发中的交付能力、预测软件项目中延迟问题以及使用深度学习模型进行故事点估计。

These datasets encompass sprint data, delay issue data, and story point estimation data, which are utilized to forecast delivery capabilities in iterative development, predict delay issues in software projects, and estimate story points using deep learning models, respectively.

创建时间：

2019-12-20

原始信息汇总

数据集概述

数据集类型及用途

敏捷冲刺数据集
- 描述：关于迭代开发（如冲刺）的数据集。
- 用途：用于预测迭代开发中的交付能力。
- 相关论文：发表于IEEE TSE。
延迟问题数据集
- 描述：关于延迟问题的数据集。
- 用途：用于预测延迟问题。
- 相关论文：发表于MSR2015、ASE2015及Empirical Software Engineering。
故事点数据集
- 描述：关于故事点估计的数据集。
- 用途：用于深度学习模型估计故事点。
- 相关论文：发表于IEEE TSE。

引用要求

若使用本数据集，请在您的出版物中引用相关论文。

附加信息

数据集文件夹中包含预印本。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于敏捷开发中的迭代开发、延迟问题和故事点估算三个核心领域。通过收集和分析实际软件开发项目中的数据，研究团队构建了多个子数据集，分别用于预测交付能力、延迟问题以及故事点估算。这些数据来源于真实的软件开发项目，涵盖了多个项目的迭代周期、问题跟踪记录和任务估算结果，确保了数据的多样性和代表性。

特点

该数据集的特点在于其多样性和广泛的应用场景。数据集涵盖了敏捷开发中的多个关键环节，包括迭代开发、问题延迟预测和故事点估算。每个子数据集都经过精心整理和标注，确保了数据的准确性和一致性。此外，数据集还提供了详细的元数据和相关的学术论文引用，便于研究人员深入理解数据的背景和应用场景。数据集的多维度和高质量使其成为研究敏捷开发和软件工程预测模型的宝贵资源。

使用方法

该数据集的使用方法灵活多样，适用于多种研究场景。研究人员可以通过访问GitHub页面下载数据集，并根据需要选择相应的子数据集进行分析。数据集的使用通常涉及数据预处理、特征提取和模型训练等步骤。研究人员可以利用这些数据集进行预测模型的构建和验证，例如预测迭代开发的交付能力、识别可能延迟的问题或估算任务的故事点。使用该数据集时，建议引用相关的学术论文，以确保研究的透明性和可重复性。

背景与挑战

背景概述

agile sprints, delay issues, story points数据集由SEAnalytics团队创建，主要研究人员包括Morakot Choetkiertikul、Hoa Khanh Dam、Truyen Tran等。该数据集聚焦于敏捷开发中的迭代交付能力预测、问题延迟预测以及故事点估算等核心研究问题。相关研究成果发表于IEEE Transactions on Software Engineering、Empirical Software Engineering等顶级期刊，并在MSR、ASE等国际会议上展示。这些数据集为软件工程领域的研究提供了重要的实证基础，推动了敏捷开发中预测模型的发展，对提升软件开发效率和质量具有深远影响。

当前挑战

该数据集在解决敏捷开发中的关键问题时面临多重挑战。首先，迭代交付能力预测需要处理复杂的开发流程和团队动态，数据稀疏性和噪声问题增加了建模难度。其次，问题延迟预测涉及多源异构数据的整合，如任务依赖关系、开发人员行为等，数据质量和特征提取成为主要瓶颈。此外，故事点估算依赖于历史数据的准确性和一致性，但实际开发中故事点的定义和评估标准往往不一致，导致模型泛化能力受限。在数据集构建过程中，研究人员还需克服数据采集的实时性、隐私保护以及跨项目数据标准化等挑战。

常用场景

经典使用场景

在敏捷开发领域，迭代开发（如Sprint）的效率与交付能力是团队关注的核心问题。该数据集通过记录敏捷Sprint中的开发数据，为研究人员提供了预测交付能力的宝贵资源。经典使用场景包括利用这些数据构建预测模型，帮助团队在迭代开发过程中提前识别潜在的风险和瓶颈，从而优化开发流程。

实际应用

在实际应用中，该数据集被广泛用于敏捷开发团队的交付能力评估和优化。通过分析Sprint中的数据，团队可以更好地规划资源、调整开发节奏，并提前应对可能出现的延迟问题。这种数据驱动的决策方式显著提升了项目的交付成功率，减少了开发过程中的不确定性。

衍生相关工作

该数据集衍生了一系列经典研究工作，例如基于深度学习的用户故事点估计模型和延迟问题的预测方法。这些研究不仅在学术界引起了广泛关注，还为工业界提供了实用的工具和方法。相关成果发表在IEEE TSE、MSR、ASE等顶级期刊和会议上，推动了软件工程领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集