five

PMo Dataset

收藏
arXiv2025-07-15 更新2025-07-17 收录
下载链接:
https://doi.org/10.5281/zenodo.158575886
下载链接
链接失效反馈
官方服务:
资源简介:
PMo数据集是一个包含55个流程描述及其在九种不同流程模型表示(PMR)中的模型的新数据集。该数据集从五个现有来源构建,包括Mangler数据集、PMo基准测试、PET-7数据集、BPMN for Research数据集和CCC19数据集。数据集经过预处理以确保最佳可用性和适用性。
提供机构:
蒙特利尔理工学院
创建时间:
2025-07-15
搜集汇总
数据集介绍
main_image_url
构建方式
PMo数据集构建于多个现有数据源的基础之上,包括Mangler数据集、PMo Benchmark、PET-7数据集、BPMN for research数据集以及CCC19数据集,共计55对过程描述与过程模型的组合。为确保数据质量,研究团队对原始数据进行了严格的预处理,包括清理特殊字符、修正标点与间距、拆分句子以及移除无关信息。此外,所有BPMN模型均经过精细化处理,如标签文本的标准化与图表布局的优化。通过开发专用转换器,将BPMN模型自动转换为其他八种过程模型表示(PMRs),并在转换过程中验证了信息的完整性与一致性。对于不支持特定元素的PMRs,研究团队采取了忽略或排除的策略,以确保数据集的准确性与可用性。
特点
PMo数据集的核心特点在于其多样性与全面性。该数据集涵盖了九种不同的过程模型表示(PMRs),包括BPMN、Graphviz、Mermaid等,每种表示均具有独特的结构与语言特性。数据集中的过程模型经过专家手工验证,确保了高质量与可靠性。特别值得注意的是,PMo数据集通过统一的预处理与转换流程,实现了不同PMRs之间的可比性,为系统性评估提供了坚实基础。此外,数据集还针对LLM的应用场景进行了优化,例如通过精简非必要元素来降低token数量,从而适应LLM的上下文长度限制。这些特点使得PMo数据集成为评估过程建模表示与生成任务的理想基准。
使用方法
PMo数据集的使用方法主要围绕过程建模表示(PMRs)的评估与比较展开。研究人员可通过该数据集进行两种维度的分析:一是评估不同PMRs在LLM-based过程建模中的适用性,包括token紧凑性、表达力、可读性等指标;二是测量PMRs在过程模型生成(PMG)任务中的性能表现,如元素计数与PME相似性评分。具体操作时,可采用标准化的提示模板,利用开源LLM(如LLaMA3.3-70b)生成过程模型,并通过语义匹配与集合相似性计算(如Dice–Sørensen系数)进行定量评估。数据集还支持可视化分析,例如直接渲染Mermaid或Graphviz表示的图表,或通过工具库(如pm4py)转换其他PMRs为图形。这种多层次的使用方法为研究过程建模与LLM的交互提供了灵活而严谨的框架。
背景与挑战
背景概述
PMo数据集由Alexis Brissard、Frédéric Cuppens和Amal Zouaq等研究人员于2024年提出,旨在支持大型语言模型(LLMs)在业务流程建模(PMo)中的应用。该数据集包含55个业务流程描述及其对应的九种不同流程模型表示(PMRs),为PMo领域提供了首个系统性的比较基准。PMo数据集的构建基于五个现有数据源,包括Mangler数据集、PMo Benchmark等,经过严格的预处理和转换,确保了数据的高质量和一致性。该数据集的发布填补了LLM-based PMo领域缺乏标准化评估工具的空白,为后续研究提供了重要的数据支持。
当前挑战
PMo数据集面临的主要挑战包括:1)流程模型生成的评估标准化问题,现有方法使用不同的评估指标和基准,难以直接比较;2)流程模型表示(PMRs)的多样性和复杂性,不同PMRs在结构、表达能力和可视化能力上存在显著差异;3)LLMs在生成流程模型时的元素遗漏问题,特别是对网关等关键元素的生成不足;4)数据集构建过程中需要处理不同来源数据的异构性和不完整性,确保转换后的模型保持语义一致性。这些挑战为PMo领域的研究提供了重要的方向。
常用场景
经典使用场景
在业务流程建模(BPM)领域,PMo数据集被广泛用于评估不同流程模型表示(PMRs)在大型语言模型(LLMs)支持下的适用性。该数据集包含55个流程描述及其对应的九种不同PMRs模型,为研究者提供了一个标准化的基准平台。通过这一数据集,研究者能够系统地比较不同PMRs在结构复杂性、表达能力和生成效率等方面的差异,从而为流程建模任务提供最优的表示选择。
衍生相关工作
PMo数据集衍生了一系列经典研究工作,如基于Mermaid和BPMN文本的流程模型生成方法。这些工作进一步探索了不同PMRs在LLM环境下的性能表现,并提出了改进生成质量的创新技术。例如,有研究利用该数据集验证了分支结构PMRs(如BPMN文本)在减少模型简化倾向方面的优势,为后续研究提供了重要参考。
数据集最近研究
最新研究方向
随着大语言模型在业务流程建模领域的深度应用,PMo Dataset的推出为流程模型表示法的系统性比较提供了首个实证研究框架。该数据集通过整合55个流程描述与九种不同表示法的配对模型,为学术界建立了标准化评估基准。当前研究聚焦于两大前沿方向:一是探索最优流程表示法在LLM辅助建模中的适应性,Mermaid凭借90%的令牌压缩率和可视化优势成为综合评分最高的表示法;二是针对流程模型生成任务,BPMN text通过显式分支结构显著缓解了LLM在网关元素生成中的简化倾向,在PME相似性评估中取得0.54的最高分。这些发现为构建多阶段建模管道提供了关键启示,同时也暴露出LLM在复杂元素生成方面的技术瓶颈,为后续研究指明了突破路径。
相关研究论文
  • 1
    What is the Best Process Model Representation? A Comparative Analysis for Process Modeling with Large Language Models蒙特利尔理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作