TAWOS (Tawosi Agile Web-based OpenSource) dataset
收藏arXiv2022-02-02 更新2024-06-21 收录
下载链接:
https://github.com/SOLAR-group/TAWOS
下载链接
链接失效反馈官方服务:
资源简介:
TAWOS数据集是由伦敦大学学院创建的,包含来自44个开源敏捷软件项目的508,963个问题。数据集涵盖多种编程语言和应用领域,支持多种研究,如工作量估计、问题优先级排序等。创建过程中,从13个主要开源仓库中提取数据,确保信息的结构统一和可用性。该数据集主要用于软件工程估计任务,但也包含其他相关信息,支持更广泛的研究。
The TAWOS dataset was developed by University College London, containing 508,963 issues from 44 open-source agile software projects. It covers a diverse set of programming languages and application domains, supporting multiple research directions such as software effort estimation and issue prioritization. During its development, data was extracted from 13 major open-source repositories to ensure uniform structural consistency and usability of the collected information. Primarily intended for software engineering estimation tasks, this dataset also includes other relevant information to support a broader range of research.
提供机构:
伦敦大学学院
创建时间:
2022-02-02
搜集汇总
数据集介绍

构建方式
TAWOS数据集的构建源于对敏捷开源软件项目中问题管理信息的系统性挖掘。研究团队于2020年10月下旬,针对Apache、Atlassian、MongoDB等13个主要开源代码库,利用Jira REST Java Client及自主研发的Java工具,提取了44个采用敏捷开发方法且至少包含200个已记录故事点的问题项目。最终数据集以关系数据库形式存储于MySQL中,并通过GitHub公开托管,便于社区维护与扩展。
特点
该数据集涵盖508,963个问题,来自208,811名用户,横跨多种编程语言、应用领域及团队地理位置。其核心创新在于对问题描述与评论中的自然语言文本和代码片段进行分离,并统一所有时间为协调世界时。此外,数据集提供了丰富的派生字段,如解析时间、故事点估计日期、字段变更标记等,为跨领域研究如工作量估计、问题优先级排序及开发者分配提供了统一基准。
使用方法
用户可通过SQL语言对TAWOS数据集进行灵活的水平和垂直采样,以适配特定研究目标。数据集以MySQL数据库形式提供,附带详细的安装与使用指南。研究人员可基于问题表、评论表、变更日志表等核心实体,探索故事点估计、开发者情绪分析、缺陷修复时间预测等课题。同时,GitHub仓库支持通过拉取请求扩展数据,促进社区协作与数据持续丰富。
背景与挑战
背景概述
敏捷软件开发已成为开源与工业软件项目中广泛采纳的实践范式,其核心依赖问题追踪工具(如Jira)记录任务演化、技术细节与人力分配等关键信息。然而,以往研究公开的实证数据多局限于特定研究目标,缺乏跨领域整合的通用性。为突破这一瓶颈,伦敦大学学院Vali Tawosi团队于2022年构建了TAWOS数据集,系统采集了来自13个代码仓库、44个开源项目的508,963条问题记录,涵盖故事点、变更日志、注释文本等结构化信息。该数据集旨在为软件工程领域提供统一的基准资源,支持工作量估算、任务优先级排序、开发者分配、迭代规划等多维度的交叉分析,显著降低了研究者从异构数据源中重复挖掘的时间成本,为跨研究对比与复现性验证奠定了坚实基础。
当前挑战
TAWOS数据集所面临的挑战主要体现在两个层面。其一,在领域问题层面,敏捷软件开发的研究长期受困于数据碎片化——过往研究因采用不同项目子集或私有数据,导致模型泛化能力难以评估,例如Choetkiertikul等人无法复现Porru等研究的数据源,凸显了统一基准的迫切性。其二,在构建过程中,团队需克服多仓库数据异构性难题:不同Jira实例的时区差异要求统一转换为协调世界时,注释文本与代码片段的混合需通过自然语言处理技术分离,而故事点估算时间戳的提取则需依赖变更日志追踪字段修改历史。此外,为保护隐私,用户名与邮箱等个人标识符必须彻底脱敏,同时保持数据关联性以支持开发者行为分析。这些技术细节的严谨处理,确保了数据集的科学性、可扩展性与长期维护性。
常用场景
经典使用场景
在敏捷软件开发日益普及的背景下,TAWOS数据集为研究基于问题的软件工程任务提供了丰富的数据基础。其最经典的使用场景是作为统一基准,用于构建和评估故事点(Story Point)估计模型。研究者可借助其中超过50万条来自44个开源项目的问题记录,以及结构化的元数据(如标题、描述、代码片段、开发者信息与时间戳),训练深度学习或机器学习模型,以自动化预测开发任务的工时,从而替代传统的人工估算流程。
解决学术问题
该数据集有效解决了以往研究中数据不统一、样本量小且难以复现的问题。它支持跨项目与跨仓库的实证分析,使得研究者能够深入探讨影响故事点估计精度的关键因素,如问题类型、描述文本与代码的分离、开发者负荷及估计时间顺序等。通过提供统一的基准,TAWOS促进了不同模型间的公平比较,推动了机器学习在软件工作量估计领域从理论走向可复现的实证研究,显著提升了该方向的研究可信度与可扩展性。
衍生相关工作
TAWOS数据集已衍生出多项经典工作,例如Tawosi等人基于该数据集复现并扩展了Choetkiertikul等人的深度学习故事点估计研究,验证了聚类策略在提升估计准确性方面的有效性。此外,该数据集还被用于探索跨项目任务分配、缺陷修复时间预测以及开发者情感分析等方向。其开放的可扩展架构鼓励社区通过GitHub贡献新特征或项目,进一步催生了诸如基于情感与生产力交互分析、多目标迭代规划等前沿研究,形成了一个持续生长的研究生态。
以上内容由遇见数据集搜集并总结生成



