Requirement Relation Extraction Dataset
收藏arXiv2021-09-05 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2109.02050v1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为Requirement Relation Extraction Dataset,由慕尼黑工业大学等机构创建,包含2093条来自需求工程领域的预处理句子。数据集大小适中,涵盖了从政府机构软件到视频游戏等多种主题的需求文档。创建过程中,研究人员手动提取并预处理了这些句子,确保其语法和拼写正确,同时去除了不必要的信息。该数据集主要用于关系抽取研究,旨在通过半自动标注框架提高标注效率和一致性,解决传统人工标注中的偏差和不一致问题。
This dataset is named Requirement Relation Extraction Dataset, and it was developed by institutions including the Technical University of Munich. It contains 2093 preprocessed sentences from the domain of Requirements Engineering. With a moderate scale, this dataset covers requirement documents across a wide range of topics, spanning from government agency software to video games. During the dataset construction process, researchers manually extracted and preprocessed these sentences to guarantee correct grammar and spelling, while eliminating redundant information. This dataset is primarily intended for relation extraction research, with the goal of enhancing annotation efficiency and consistency through a semi-automated annotation framework, thereby addressing the biases and inconsistencies associated with traditional manual annotation.
提供机构:
慕尼黑工业大学
创建时间:
2021-09-05
搜集汇总
数据集介绍

构建方式
在需求工程领域,高质量标注数据集的构建常面临人力成本高昂与标注一致性不足的挑战。本数据集采用半自动标注框架,从PURE数据集的19份公开需求文档中人工提取并预处理了2,093个英文需求句子。预处理包括拆分枚举、移除无关引用、纠正语法与拼写错误等步骤,以确保句子符合语法规范。随后,利用神经依赖解析器分析句法结构,并基于102条手工设计的模式规则,自动为句子中的实体与关系赋予四类标签:主要实体、关系、被动实体及条件修饰符,实现了对91.03%功能需求与78.71%非功能需求的高覆盖率自动标注。
特点
该数据集的核心特点在于其融合了自动标注与人工验证的双重优势。数据集包含2,093个经过严格预处理的需求句子,涵盖功能与非功能需求,并提供了1,848个自动生成的标签以及199个人工精标标签作为质量参照。其标注体系基于句法依赖路径的模式匹配,确保了标注结果的一致性与可复现性,显著降低了主观偏差。评估显示,自动标注与人工标注在句子层面的平均Cohen's κ值达到0.632,呈现高度一致性,尤其在主要实体的识别上接近完美吻合。数据集同时公开了标注框架代码,为关系提取研究提供了可扩展的范式。
使用方法
该数据集主要服务于自然语言处理中关系提取任务的研究与模型训练。使用者可直接利用已标注的句子与四元组标签,训练或评估基于深度学习的序列标注或关系分类模型,如BERT、ELECTRA等。数据集中自动与人工标签的并存,便于进行半监督学习或标注质量对比分析。研究者亦可借鉴其半自动标注框架,通过定义新的依赖模式,将方法适配至其他领域的关系提取任务。此外,预处理后的纯净需求语句本身可作为需求工程领域语言模型预训练或分析的语料资源。
背景与挑战
背景概述
在自然语言处理与需求工程交叉领域,Requirement Relation Extraction Dataset 的构建标志着对软件需求文档结构化解析的重要探索。该数据集由慕尼黑工业大学、LMU慕尼黑大学及Qualicen GmbH的研究团队于2020年前后联合创建,核心目标在于解决需求文档中实体关系的自动化抽取难题。研究团队从PURE数据集的19份公开需求文档中提取了2,093条经过预处理的句子,涵盖功能性与非功能性需求,并创新性地采用基于依存句法分析的半自动标注框架,通过102条人工设计的模式规则实现了对91.03%功能需求句子的自动标注。这一工作为需求工程领域的知识图谱构建、自动化文档转换及智能软件维护提供了关键数据基础,推动了自然语言处理技术在专业垂直领域的应用深化。
当前挑战
该数据集面临的挑战主要体现在领域问题与构建过程两个维度。在领域问题层面,需求关系抽取需克服自然语言表达的复杂性与歧义性,例如需求文档中常存在嵌套从句、多实体关联及条件修饰结构,导致单一句子可能蕴含多重关系,而现有标注引擎尚难以有效处理此类复杂句法现象。构建过程中的挑战则集中于数据预处理与标注规则的泛化能力:原始需求文档包含大量非规范表述(如枚举项、缩写、交叉引用),需通过繁琐的人工清洗确保句法解析的可靠性;同时,依赖人工设计的模式规则虽能提升标注一致性,但其覆盖范围受限于特定句法结构,对语义理解型任务(如命名实体识别)适应性不足,且跨语言迁移时可能因关键词差异而失效。
常用场景
经典使用场景
在需求工程领域,自然语言需求文档的规模庞大且结构复杂,手动提取实体间关系耗时且易出错。Requirement Relation Extraction Dataset 的经典使用场景在于为关系抽取任务提供高质量的标注数据,支持基于依赖解析和模式匹配的半自动标注框架。该数据集包含来自公开需求文档的2093个预处理句子,涵盖功能与非功能需求,通过自动生成的1848个标签和手工标注的199个标签,为训练和评估关系抽取模型提供了可靠基准。这一场景显著降低了人工标注成本,同时确保了标签的一致性与可重复性,推动了需求文档自动化分析的研究进展。
解决学术问题
该数据集主要解决了需求工程中自然语言文本的结构化转换难题,即将非结构化的需求描述自动解析为实体间的关系三元组。传统方法依赖人工标注,存在主观偏差和效率低下问题;而本数据集通过半自动标注框架,基于语法依赖树和预定义模式生成标签,有效减少了标注不一致性。其意义在于为关系抽取领域提供了可扩展的标注方法论,证明了语法特征在特定领域任务中的适用性,并为低资源场景下的数据集构建提供了新思路,促进了自然语言处理与软件工程的交叉研究。
衍生相关工作
该数据集的半自动标注框架衍生了一系列经典研究工作,例如基于依赖解析的模式匹配方法被应用于开放信息抽取和语义解析任务。相关研究如Gamallo等人(2012)的依赖树开放抽取系统、Erkan等人(2007)的蛋白质关系抽取,以及Mausam等人(2012)的引导式模式生成,均启发了本数据集的规则设计。同时,该数据集为后续基于Transformer的模型(如BERT)提供了训练数据,支持Schmitt等人(2020)的联合知识图谱生成与语义解析研究,推动了领域自适应关系抽取技术的发展。
以上内容由遇见数据集搜集并总结生成



