LESCHNEIDER 数据集
收藏arXiv2025-07-11 更新2025-08-15 收录
下载链接:
https://github.com/AlexanderPaulStevens/BPMN-Model-Generation-from-Text
下载链接
链接失效反馈官方服务:
资源简介:
LESCHNEIDER 数据集是PET数据集的扩展版本,用于训练机器学习模型,以便更好地捕捉并行结构,特别是AND网关。该数据集包含来自实际来源的文本描述,包括商业文章、教育材料和职场流程,并且已经通过IOB2格式进行了NER标注,并通过手动进行了RE标注。LESCHNEIDER数据集通过添加更多并行行为描述的文本,以解决PET数据集中AND网关实例不足的问题。该数据集旨在帮助模型区分关键和非关键信息,并评估模型在真实条件下的鲁棒性。
The LESCHNEIDER dataset is an extended version of the PET dataset, designed for training machine learning models to better capture parallel structures, particularly AND gates. This dataset contains textual descriptions from real-world sources including business articles, educational materials and workplace workflows, and has been annotated for named entity recognition (NER) in IOB2 format with manual relation extraction (RE) annotations. The LESCHNEIDER dataset addresses the insufficient number of AND gate instances in the PET dataset by adding more texts describing parallel behaviors. It aims to help models distinguish between critical and non-critical information, and evaluate model robustness under real-world conditions.
提供机构:
信息系统工程研究中心,库鲁文大学,比利时鲁汶
创建时间:
2025-07-11
搜集汇总
数据集介绍

构建方式
LESCHNEIDER数据集是基于PET数据集的扩展版本,通过从商业文章、教育材料和工作流程等真实世界来源中提取BPMN图,并将其转化为文本描述进行标注。标注采用IOB2格式,并手动进行关系抽取(RE)标注,遵循PET数据集的标准。该数据集新增了15个标注文档,包含32个并行网关(AND Gateway),显著提升了并行结构的识别能力。
特点
LESCHNEIDER数据集的主要特点是增强了并行结构的标注,解决了原始PET数据集中并行网关(AND Gateway)标注不足的问题。此外,数据集还引入了非必要信息,以评估模型在区分关键信息与非关键信息方面的能力。数据集的标注涵盖了多种实体类型,如Actor、Activity、XOR Gateway等,并提供了更均衡的标签分布,为模型训练提供了更全面的数据支持。
使用方法
LESCHNEIDER数据集适用于训练和评估自然语言处理模型,特别是在BPMN模型生成任务中。研究人员可以使用该数据集进行命名实体识别(NER)和关系抽取(RE)任务的训练,并通过交叉验证评估模型性能。数据集还支持对并行结构的专门研究,帮助提升模型在复杂流程描述中的表现。
背景与挑战
背景概述
LESCHNEIDER数据集由比利时鲁汶大学信息系统工程研究中心的研究团队于2025年创建,旨在解决从自然语言文本自动生成BPMN(业务流程模型与符号)模型的关键挑战。该数据集作为PET数据集的扩展版本,特别针对并行结构(AND网关)识别这一长期被忽视的研究空白,通过新增15个标注文档和32个并行网关实例,显著提升了模型对业务流程中并行活动的捕捉能力。其创新性在于采用真实场景文本(如商业文档和教育材料)构建标注语料,并引入非必要信息作为噪声样本,为评估模型在复杂语境下的鲁棒性提供了新基准。该数据集的发布填补了流程挖掘领域高质量并行结构标注资源的空缺,对推动基于机器学习的业务流程自动化研究具有重要价值。
当前挑战
LESCHNEIDER数据集面临的核心挑战体现在两个维度:在领域问题层面,传统BPMN生成方法难以准确识别文本中隐含的并行结构(如'同时进行'类表述),且对多样化写作风格的适应性不足;在构建过程中,需克服标注一致性难题——特别是并行网关与独占网关(XOR)的语义边界模糊问题,以及小样本类别(如仅占原始数据集0.48%的AND网关)导致的模型偏差。此外,合成文本噪声与真实业务流程描述的平衡、多语言特定表述的跨领域泛化,以及标注过程中活动实体与网关关系的复杂映射,均为数据集构建中的关键技术瓶颈。
常用场景
经典使用场景
LESCHNEIDER数据集在业务流程管理(BPM)领域中被广泛用于训练和评估自然语言处理(NLP)模型,特别是那些专注于从文本描述中自动生成BPMN(Business Process Model and Notation)模型的系统。该数据集通过增强并行结构(如AND网关)的标注,为研究社区提供了一个宝贵的资源,用于探索如何更准确地捕捉和表示业务流程中的并行活动。
实际应用
在实际应用中,LESCHNEIDER数据集被企业用于自动化生成BPMN模型,从而加速业务流程的设计和优化。例如,在金融和医疗领域,该数据集帮助开发了能够快速将复杂的业务需求文档转换为可视化流程图的工具,显著提高了流程设计的效率和准确性。
衍生相关工作
基于LESCHNEIDER数据集,研究者们开发了多种先进的NLP模型,如基于BERT和RoBERTa的命名实体识别(NER)和关系抽取(RE)系统。这些工作不仅推动了BPMN自动生成技术的发展,还为后续研究如使用大型语言模型(LLM)进行流程提取提供了重要的基准和参考。
以上内容由遇见数据集搜集并总结生成



