PMo Dataset

Name: PMo Dataset
Creator: 蒙特利尔理工学院
Published: 2025-07-15 22:26:50
License: 暂无描述

arXiv2025-07-15 更新2025-07-17 收录

下载链接：

https://doi.org/10.5281/zenodo.158575886

下载链接

链接失效反馈

官方服务：

资源简介：

PMo数据集是一个包含55个流程描述及其在九种不同流程模型表示（PMR）中的模型的新数据集。该数据集从五个现有来源构建，包括Mangler数据集、PMo基准测试、PET-7数据集、BPMN for Research数据集和CCC19数据集。数据集经过预处理以确保最佳可用性和适用性。

The PMo dataset is a novel dataset containing 55 process descriptions and their corresponding models across nine distinct process model representations (PMR). It is constructed from five existing sources, including the Mangler dataset, PMo benchmark, PET-7 dataset, BPMN for Research dataset, and CCC19 dataset. The dataset has been preprocessed to ensure optimal usability and applicability.

提供机构：

蒙特利尔理工学院

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

PMo数据集构建于多个现有数据源的基础之上，包括Mangler数据集、PMo Benchmark、PET-7数据集、BPMN for research数据集以及CCC19数据集，共计55对过程描述与过程模型的组合。为确保数据质量，研究团队对原始数据进行了严格的预处理，包括清理特殊字符、修正标点与间距、拆分句子以及移除无关信息。此外，所有BPMN模型均经过精细化处理，如标签文本的标准化与图表布局的优化。通过开发专用转换器，将BPMN模型自动转换为其他八种过程模型表示（PMRs），并在转换过程中验证了信息的完整性与一致性。对于不支持特定元素的PMRs，研究团队采取了忽略或排除的策略，以确保数据集的准确性与可用性。

特点

PMo数据集的核心特点在于其多样性与全面性。该数据集涵盖了九种不同的过程模型表示（PMRs），包括BPMN、Graphviz、Mermaid等，每种表示均具有独特的结构与语言特性。数据集中的过程模型经过专家手工验证，确保了高质量与可靠性。特别值得注意的是，PMo数据集通过统一的预处理与转换流程，实现了不同PMRs之间的可比性，为系统性评估提供了坚实基础。此外，数据集还针对LLM的应用场景进行了优化，例如通过精简非必要元素来降低token数量，从而适应LLM的上下文长度限制。这些特点使得PMo数据集成为评估过程建模表示与生成任务的理想基准。

使用方法

PMo数据集的使用方法主要围绕过程建模表示（PMRs）的评估与比较展开。研究人员可通过该数据集进行两种维度的分析：一是评估不同PMRs在LLM-based过程建模中的适用性，包括token紧凑性、表达力、可读性等指标；二是测量PMRs在过程模型生成（PMG）任务中的性能表现，如元素计数与PME相似性评分。具体操作时，可采用标准化的提示模板，利用开源LLM（如LLaMA3.3-70b）生成过程模型，并通过语义匹配与集合相似性计算（如Dice–Sørensen系数）进行定量评估。数据集还支持可视化分析，例如直接渲染Mermaid或Graphviz表示的图表，或通过工具库（如pm4py）转换其他PMRs为图形。这种多层次的使用方法为研究过程建模与LLM的交互提供了灵活而严谨的框架。

背景与挑战

背景概述

PMo数据集由Alexis Brissard、Frédéric Cuppens和Amal Zouaq等研究人员于2024年提出，旨在支持大型语言模型（LLMs）在业务流程建模（PMo）中的应用。该数据集包含55个业务流程描述及其对应的九种不同流程模型表示（PMRs），为PMo领域提供了首个系统性的比较基准。PMo数据集的构建基于五个现有数据源，包括Mangler数据集、PMo Benchmark等，经过严格的预处理和转换，确保了数据的高质量和一致性。该数据集的发布填补了LLM-based PMo领域缺乏标准化评估工具的空白，为后续研究提供了重要的数据支持。

当前挑战

PMo数据集面临的主要挑战包括：1）流程模型生成的评估标准化问题，现有方法使用不同的评估指标和基准，难以直接比较；2）流程模型表示（PMRs）的多样性和复杂性，不同PMRs在结构、表达能力和可视化能力上存在显著差异；3）LLMs在生成流程模型时的元素遗漏问题，特别是对网关等关键元素的生成不足；4）数据集构建过程中需要处理不同来源数据的异构性和不完整性，确保转换后的模型保持语义一致性。这些挑战为PMo领域的研究提供了重要的方向。

常用场景

经典使用场景

在业务流程建模（BPM）领域，PMo数据集被广泛用于评估不同流程模型表示（PMRs）在大型语言模型（LLMs）支持下的适用性。该数据集包含55个流程描述及其对应的九种不同PMRs模型，为研究者提供了一个标准化的基准平台。通过这一数据集，研究者能够系统地比较不同PMRs在结构复杂性、表达能力和生成效率等方面的差异，从而为流程建模任务提供最优的表示选择。

衍生相关工作

PMo数据集衍生了一系列经典研究工作，如基于Mermaid和BPMN文本的流程模型生成方法。这些工作进一步探索了不同PMRs在LLM环境下的性能表现，并提出了改进生成质量的创新技术。例如，有研究利用该数据集验证了分支结构PMRs（如BPMN文本）在减少模型简化倾向方面的优势，为后续研究提供了重要参考。

数据集最近研究