PMo Dataset

Name: PMo Dataset
Creator: 蒙特利尔理工学院
Published: 2025-07-15 22:26:50
License: 暂无描述

arXiv2025-07-15 更新2025-07-17 收录

下载链接：

https://doi.org/10.5281/zenodo.158575886

下载链接

链接失效反馈

官方服务：

资源简介：

PMo数据集是一个包含55个流程描述及其在九种不同流程模型表示（PMR）中的模型的新数据集。该数据集从五个现有来源构建，包括Mangler数据集、PMo基准测试、PET-7数据集、BPMN for Research数据集和CCC19数据集。数据集经过预处理以确保最佳可用性和适用性。

提供机构：

蒙特利尔理工学院

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

PMo数据集构建于多个现有数据源的基础之上，包括Mangler数据集、PMo Benchmark、PET-7数据集、BPMN for research数据集以及CCC19数据集，共计55对过程描述与过程模型的组合。为确保数据质量，研究团队对原始数据进行了严格的预处理，包括清理特殊字符、修正标点与间距、拆分句子以及移除无关信息。此外，所有BPMN模型均经过精细化处理，如标签文本的标准化与图表布局的优化。通过开发专用转换器，将BPMN模型自动转换为其他八种过程模型表示（PMRs），并在转换过程中验证了信息的完整性与一致性。对于不支持特定元素的PMRs，研究团队采取了忽略或排除的策略，以确保数据集的准确性与可用性。

特点

PMo数据集的核心特点在于其多样性与全面性。该数据集涵盖了九种不同的过程模型表示（PMRs），包括BPMN、Graphviz、Mermaid等，每种表示均具有独特的结构与语言特性。数据集中的过程模型经过专家手工验证，确保了高质量与可靠性。特别值得注意的是，PMo数据集通过统一的预处理与转换流程，实现了不同PMRs之间的可比性，为系统性评估提供了坚实基础。此外，数据集还针对LLM的应用场景进行了优化，例如通过精简非必要元素来降低token数量，从而适应LLM的上下文长度限制。这些特点使得PMo数据集成为评估过程建模表示与生成任务的理想基准。

使用方法

PMo数据集的使用方法主要围绕过程建模表示（PMRs）的评估与比较展开。研究人员可通过该数据集进行两种维度的分析：一是评估不同PMRs在LLM-based过程建模中的适用性，包括token紧凑性、表达力、可读性等指标；二是测量PMRs在过程模型生成（PMG）任务中的性能表现，如元素计数与PME相似性评分。具体操作时，可采用标准化的提示模板，利用开源LLM（如LLaMA3.3-70b）生成过程模型，并通过语义匹配与集合相似性计算（如Dice–Sørensen系数）进行定量评估。数据集还支持可视化分析，例如直接渲染Mermaid或Graphviz表示的图表，或通过工具库（如pm4py）转换其他PMRs为图形。这种多层次的使用方法为研究过程建模与LLM的交互提供了灵活而严谨的框架。

背景与挑战

背景概述

PMo数据集由Alexis Brissard、Frédéric Cuppens和Amal Zouaq等研究人员于2024年提出，旨在支持大型语言模型（LLMs）在业务流程建模（PMo）中的应用。该数据集包含55个业务流程描述及其对应的九种不同流程模型表示（PMRs），为PMo领域提供了首个系统性的比较基准。PMo数据集的构建基于五个现有数据源，包括Mangler数据集、PMo Benchmark等，经过严格的预处理和转换，确保了数据的高质量和一致性。该数据集的发布填补了LLM-based PMo领域缺乏标准化评估工具的空白，为后续研究提供了重要的数据支持。

当前挑战

PMo数据集面临的主要挑战包括：1）流程模型生成的评估标准化问题，现有方法使用不同的评估指标和基准，难以直接比较；2）流程模型表示（PMRs）的多样性和复杂性，不同PMRs在结构、表达能力和可视化能力上存在显著差异；3）LLMs在生成流程模型时的元素遗漏问题，特别是对网关等关键元素的生成不足；4）数据集构建过程中需要处理不同来源数据的异构性和不完整性，确保转换后的模型保持语义一致性。这些挑战为PMo领域的研究提供了重要的方向。

常用场景

经典使用场景

在业务流程建模（BPM）领域，PMo数据集被广泛用于评估不同流程模型表示（PMRs）在大型语言模型（LLMs）支持下的适用性。该数据集包含55个流程描述及其对应的九种不同PMRs模型，为研究者提供了一个标准化的基准平台。通过这一数据集，研究者能够系统地比较不同PMRs在结构复杂性、表达能力和生成效率等方面的差异，从而为流程建模任务提供最优的表示选择。

衍生相关工作

PMo数据集衍生了一系列经典研究工作，如基于Mermaid和BPMN文本的流程模型生成方法。这些工作进一步探索了不同PMRs在LLM环境下的性能表现，并提出了改进生成质量的创新技术。例如，有研究利用该数据集验证了分支结构PMRs（如BPMN文本）在减少模型简化倾向方面的优势，为后续研究提供了重要参考。

数据集最近研究