PURE
收藏arXiv2022-11-10 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2211.05286v1
下载链接
链接失效反馈官方服务:
资源简介:
PURE数据集是由设拉子理工大学的研究团队从PURE存储库中创建的,该数据集包含4661条软件需求记录,其中2617条为功能需求,2044条为非功能需求。数据集的创建涉及从不同格式的软件需求规范文档中手动提取和分类需求。PURE数据集主要用于深度学习模型在软件需求分类领域的应用,旨在通过自动化方法提高需求分类的准确性和效率。
The PURE dataset was developed by a research team from Shiraz University of Technology, sourced from the PURE repository. This dataset contains 4,661 software requirement records, among which 2,617 are functional requirements and 2,044 are non-functional requirements. The creation of the dataset involved manual extraction and classification of requirements from software requirement specification documents in various formats. The PURE dataset is primarily utilized for the application of deep learning models in the field of software requirement classification, aiming to improve the accuracy and efficiency of requirement classification through automated methods.
提供机构:
计算机工程与信息技术系,设拉子理工大学,设拉子,伊朗
创建时间:
2022-11-10
搜集汇总
数据集介绍

构建方式
PURE数据集的构建主要来源于软件需求规格说明书(SRS)的收集与整理。PURE是一个包含79份不同类型SRS文档的仓库,这些文档以PDF、Word和Html格式存在。为了适应学习算法的使用,研究人员手动分析了这些文档,从中提取出软件需求,并标注了每个需求的类别,即功能性需求(FR)或非功能性需求(NFR)。通过这种方式,构建了一个包含4661条需求的训练集,其中2617条为FR,其余为NFR。为了确保数据的质量,研究人员还进行了数据清洗和预处理工作,包括去除数字和标点符号、转换大小写、删除停用词以及词干提取等。
特点
PURE数据集的特点在于其数据规模较大,包含了4661条软件需求,且涵盖了功能性需求和非功能性需求。此外,PURE数据集的数据来源于实际软件项目,具有很高的实用价值。在构建过程中,研究人员还采用了词嵌入技术,将每个单词映射为一个向量,从而更好地反映单词之间的语义相似性。PURE数据集的构建方法也为其他软件需求分类研究提供了参考。
使用方法
PURE数据集的使用方法主要包括以下几个步骤:首先,将数据集划分为训练集和测试集,通常情况下,训练集占总数据的80%,测试集占20%。其次,对训练集进行数据预处理,包括去除数字和标点符号、转换大小写、删除停用词以及词干提取等。然后,使用词嵌入技术提取特征,例如Keras词嵌入或GloVe词嵌入。接下来,使用深度学习算法(如LSTM、BiLSTM、GRU、BiGRU和CNN)对训练集进行训练。最后,使用训练好的模型对测试集进行预测,并使用精确率、召回率和F1分数等指标评估模型性能。此外,还可以使用投票机制(如硬投票和软投票)来提高预测的准确性。
背景与挑战
背景概述
软件需求工程是软件开发过程中至关重要的初始步骤,它旨在明确软件必须提供的各项服务及其限制条件。为了提高软件需求分类的准确性和效率,研究人员开始探索使用人工智能技术,特别是深度学习(DL)方法。Fatemeh Khayashi等人提出的PURE数据集,收集了4661条软件需求,其中2617条为功能性需求(FR),其余为非功能性需求(NFR)。该数据集的创建,为研究基于深度学习的软件需求分类提供了宝贵的数据资源,有助于自动化软件工程任务,提高软件开发的质量和效率。
当前挑战
PURE数据集的主要挑战在于如何准确地区分功能性需求和非功能性需求。由于自然语言的模糊性和不确定性,人工分类过程耗时且易出错。此外,构建PURE数据集的过程中,需要手动分析软件需求规格说明书(SRS),并进行数据预处理和特征提取,这些步骤都存在一定的挑战。为了克服这些挑战,研究人员采用了多种深度学习算法,如长短期记忆网络(LSTM)、双向LSTM(BiLSTM)、门控循环单元(GRU)、双向GRU(BiGRU)和卷积神经网络(CNN),并结合投票机制来提高分类的准确性。研究结果表明,深度学习方法在软件需求分类方面表现出良好的性能,而投票机制则能够进一步提升分类的准确度。
常用场景
经典使用场景
在软件工程领域中, PURE 数据集被广泛用于软件需求分类的研究。通过对 PURE 数据集中的需求进行功能性和非功能性需求的分类,研究人员能够更深入地理解软件需求,并为软件设计提供更精确的指导。此外,PURE 数据集还被用于评估和比较不同的深度学习算法在软件需求分类任务中的性能,从而推动软件工程领域的自动化进程。
实际应用
PURE 数据集在实际应用中具有重要的价值。首先,它可以帮助软件工程师更快地理解和分析软件需求,从而提高软件开发的效率和质量。其次,PURE 数据集可以用于训练和评估深度学习算法,从而推动软件工程领域的自动化进程。此外,PURE 数据集还可以用于软件需求管理工具的开发,帮助软件团队更好地管理和跟踪软件需求。总之,PURE 数据集在实际应用中具有广泛的应用前景,可以为软件工程领域带来重要的价值和影响。
衍生相关工作
PURE 数据集的发布和研究成果引发了学术界和工业界的广泛关注。许多研究人员基于 PURE 数据集进行了深入的探索和研究,提出了许多新的方法和模型,例如基于深度学习的软件需求分类模型、基于自然语言处理的软件需求分析模型等。这些研究成果不仅推动了软件工程领域的自动化进程,也为深度学习和自然语言处理技术的发展提供了新的思路和方向。此外,PURE 数据集还促进了软件需求管理工具的开发和应用,帮助软件团队更好地管理和跟踪软件需求。总之,PURE 数据集的发布和应用对软件工程领域产生了重要的影响,并为相关技术的发展提供了重要的推动力。
以上内容由遇见数据集搜集并总结生成



