five

SAP Signavio Academic Models (SAP-SAM)

收藏
arXiv2022-08-24 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/7012043
下载链接
链接失效反馈
官方服务:
资源简介:
SAP Signavio Academic Models (SAP-SAM) 是由SAP Signavio和曼海姆大学合作创建的大型业务模型数据集,包含超过100万个主要以BPMN符号表示的业务流程模型。该数据集源自学术.signavio.com平台,该平台允许研究人员、教师和学生免费使用软件即服务平台创建业务模型。数据集内容丰富,涵盖多种模型表示法,如BPMN、DMN等,旨在支持BPM领域的算法开发和测试,以及机器学习在BPM中的应用。数据集的创建过程涉及从SAP Signavio Academic Initiative的MySQL数据库中提取模型,并使用SAP Signavio的专有JSON格式进行数据格式化。SAP-SAM的应用领域广泛,包括参考模型挖掘、识别建模模式、建模辅助和评估等,旨在解决业务流程管理和自动化中的关键问题。

SAP Signavio Academic Models (SAP-SAM) is a large-scale business model dataset co-created by SAP Signavio and the University of Mannheim, containing over 1 million business process models predominantly represented in BPMN notation. This dataset is sourced from the academic.signavio.com platform, which enables researchers, educators and students to create business models free of charge through its software-as-a-service (SaaS) offering. The dataset features rich content covering multiple model representation notations including BPMN, DMN and others, and is intended to support algorithm development and testing in the field of business process management (BPM), as well as the application of machine learning in BPM. The creation of SAP-SAM involves extracting models from the MySQL database of the SAP Signavio Academic Initiative and formatting the data using SAP Signavio's proprietary JSON format. SAP-SAM has a wide range of application scenarios, including reference model mining, modeling pattern recognition, modeling assistance and evaluation, aiming to address key issues in business process management and automation.
提供机构:
SAP Signavio, 柏林, 德国 2 曼海姆大学, 曼海姆, 德国
创建时间:
2022-08-24
搜集汇总
数据集介绍
main_image_url
构建方式
在业务流程管理领域,大规模高质量过程模型数据集的稀缺长期制约着算法开发与实证研究。SAP Signavio Academic Models(SAP-SAM)的构建依托SAP Signavio学术倡议平台,该平台自2011年起向全球研究人员、教师和学生提供免费的流程建模服务。数据集源自平台用户在十年间创建的超过百万个业务模型,主要采用BPMN符号,同时涵盖DMN、EPC、UML等多种建模语言。通过提取MySQL数据库中的专有JSON格式数据,并运行匿名化脚本移除敏感信息,最终形成了这一涵盖丰富建模实践的非商业研究数据集。
特点
SAP-SAM的显著特征在于其规模与多样性。作为当前公开最大的业务流程模型集合,它包含超过一百万个模型,其中约60%为BPMN 2.0模型,印证了该符号在业界的实际标准地位。数据集覆盖41种语言,模型复杂度分布广泛,平均每个BPMN模型包含46.7个元素和11.3种元素类型。元素使用频率呈现显著差异,例如序列流和任务元素出现在超过98%的模型中,而某些特定事件类型则使用较少。标签分布呈现长尾特征,大量标签仅出现一次,这为自然语言处理研究提供了真实场景下的数据基础。
使用方法
该数据集适用于业务流程管理领域的多种研究场景。在知识生成方面,可用于参考模型挖掘和建模模式识别,通过分析模型间的共性与变异提取领域知识。在建模辅助领域,其丰富的标注数据为机器学习模型训练提供了资源,支持流程自动补全、抽象化等智能辅助功能开发。对于算法评估,数据集的庞大规模使其成为流程模型查询、匹配及相似性计算等方法的理想测试平台。研究者可通过Zenodo平台获取数据集,并利用GitHub提供的示例代码进行过滤与预处理,例如排除供应商提供的示例模型或按元素数量筛选,以适应特定研究需求。
背景与挑战
背景概述
在业务流程管理领域,大规模流程模型数据集对于算法开发与验证具有关键意义。SAP Signavio Academic Models(SAP-SAM)由SAP Signavio与曼海姆大学的研究团队于2022年联合发布,其核心目标在于填补学术界缺乏大规模真实流程模型数据的空白。该数据集汇集了2011年至2021年间通过SAP Signavio学术平台创建的超过百万个业务流程模型,主要采用BPMN标准符号,涵盖多种建模语言。其诞生源于企业流程模型常涉及商业机密而难以公开的困境,为流程挖掘、模型匹配及机器学习应用提供了宝贵的实证基础,显著推动了业务流程管理研究的可重复性与创新性。
当前挑战
SAP-SAM数据集面临的挑战主要体现在两方面:在领域问题层面,其旨在支持业务流程建模的自动化分析、模式挖掘与智能辅助,但模型多源于学术场景,与工业实践在复杂度和目标上存在差异,可能限制算法在真实环境中的泛化能力。在构建过程中,挑战包括处理敏感信息的匿名化需求、整合多语言与多符号模型的异构性,以及筛选大量重复或低质量模型以提升数据集的多样性与代表性。这些因素共同要求使用者进行精细的数据预处理与场景适配,以确保研究结论的稳健性。
常用场景
经典使用场景
在业务流程管理领域,SAP-SAM数据集作为大规模流程模型集合,其经典应用场景在于为算法开发与验证提供实证基础。该数据集汇集了数十万个以BPMN为主的业务模型,涵盖了从简单教学示例到复杂系统设计的广泛谱系,使得研究者能够基于真实建模实践进行模式挖掘与质量评估。通过分析这些模型的结构特征与元素分布,学术界得以深入探索流程建模的共性与差异,为标准化与优化提供数据支撑。
实际应用
在实际应用层面,SAP-SAM为智能建模辅助工具的研发提供了关键训练资源。基于该数据集训练的自动补全系统能够根据上下文推荐模型元素或标签,显著提升建模效率与一致性。同时,其包含的多语言模型支持跨文化业务流程分析,为企业全球化部署提供参考。此外,数据集中的模型变体与重复模式为工业场景下的流程标准化与知识复用研究提供了现实案例,助力组织实现流程资产的系统化管理。
衍生相关工作
围绕SAP-SAM数据集,学术界已衍生出多项经典研究工作。例如,基于其大规模标签数据开发的流程模型自动抽象技术,利用自然语言处理实现元素聚类与高层语义归纳;在流程挖掘领域,结合事件日志与模型结构的跨模态分析方法得以验证;此外,该数据集还支撑了参考模型挖掘算法的性能比较,以及建模模式与反模式的实证统计研究。这些工作共同丰富了业务流程管理的方法体系,并为后续的智能流程引擎开发奠定了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作