BPIC 2012, BPIC 2015, BPIC 2017, BPIC 2019, BPIC 2020|业务流程监控数据集|预测分析数据集
收藏arXiv2021-07-05 更新2024-06-21 收录
下载链接:
https://data.4tu.nl/collections/BPI Challenge 2015/5065424
下载链接
链接失效反馈资源简介:
本研究使用五个公开的4TU.ResearchData仓库中的数据集(BPIC 2012至BPIC 2020),这些数据集记录了不同业务流程的事件日志,如贷款申请、建筑许可申请等。每个数据集包含数千至数十万条事件记录,目标为预测案例完成前的剩余时间。数据集创建过程中,研究者通过预处理步骤消除数据泄露和偏差,确保数据集的无偏性和可重复性。这些数据集主要应用于预测过程监控领域,旨在通过机器学习模型提高业务流程的监控效率和准确性。
提供机构:
信息系统工程研究中心(LIRIS),鲁汶大学,鲁汶,比利时
创建时间:
2021-07-05
AI搜集汇总
数据集介绍

构建方式
BPIC系列数据集的构建方式涉及对公共流程挖掘数据集进行预处理,旨在创建无偏见的基准数据集。研究人员首先对九个常用的公共流程挖掘数据集进行了分析,以揭示现有数据集构建过程中存在的问题。接着,他们提出了一系列预处理步骤,包括消除时间序列异常值和重复数据、消除数据集末尾的偏差、选择测试集、时间分割、消除测试集开头的偏差以及移除过长的案例。这些步骤旨在确保训练集和测试集之间的严格时间分割,并消除数据泄露和偏差问题。
特点
BPIC系列数据集的特点在于其无偏见性、严格的时间分割和代表性。数据集的构建过程考虑了时间序列异常值和重复数据的消除,以减少数据泄露的风险。此外,通过消除数据集末尾的偏差和测试集开头的偏差,确保了测试集能够更好地代表整个数据集。严格的时间分割确保了训练集和测试集之间的独立性,从而提高了预测的准确性。
使用方法
BPIC系列数据集的使用方法包括预处理步骤和模型预测。预处理步骤包括消除时间序列异常值和重复数据、消除数据集末尾的偏差、选择测试集、时间分割、消除测试集开头的偏差以及移除过长的案例。这些步骤旨在创建无偏见的基准数据集,以便研究人员可以自由地对训练集进行处理,并在给定的测试集上测试他们的结果。模型预测部分通常涉及使用卷积神经网络(CNN)等机器学习模型对预处理后的数据进行训练和测试,以预测案例的剩余时间或未来事件。
背景与挑战
背景概述
BPIC系列数据集,包括BPIC 2012、BPIC 2015、BPIC 2017、BPIC 2019和BPIC 2020,是由KU Leuven的研究中心LIRIS创建的。这些数据集主要用于预测流程监控(PPM)领域的研究,该领域涉及预测流程中的下一个事件、流程结果和剩余执行时间。BPIC数据集的创建旨在解决流程挖掘研究中存在的几个主要障碍,包括数据集使用的多样性、训练和测试集的分割方式、数据泄露问题以及测试集的偏差。BPIC系列数据集的创建和发布对促进预测流程监控领域的公平竞争、开放科学和快速进步具有重要意义。
当前挑战
BPIC数据集面临的挑战主要包括以下几个方面:1)数据集使用的多样性:研究人员使用不同的数据集和分割方式,导致结果难以比较和复现。2)训练和测试集的分割问题:标准的时间分割或交叉验证技术会导致数据泄露,影响预测性能。3)测试集的偏差:测试集在案例持续时间和运行案例数量方面存在偏差,这会影响预测结果的准确性。为了克服这些挑战,BPIC数据集的创建者提出了一系列预处理步骤,旨在创建无偏见的基准数据集,从而促进预测流程监控领域的研究和发展。
常用场景
经典使用场景
BPIC数据集系列,包括BPIC 2012, BPIC 2015, BPIC 2017, BPIC 2019和BPIC 2020,被广泛用于预测过程监控的研究。这些数据集记录了各种业务流程的事件日志,为预测下一个事件、过程结果和剩余执行时间提供了丰富的数据基础。经典的使用场景包括使用BPIC数据集进行剩余时间预测,通过深度学习模型如卷积神经网络(CNN)来训练和测试,以评估模型在现实世界业务流程中的预测能力。
解决学术问题
BPIC数据集系列解决了预测过程监控中数据集不一致性、数据泄露和偏差的问题。通过创建无偏见的基准数据集,研究人员可以更公平地比较他们的结果,促进研究的可重复性和开放科学。此外,BPIC数据集通过严格的时序分割和预处理步骤,确保了训练集和测试集之间的独立性,从而避免了数据泄露问题,这对于预测过程监控的准确性至关重要。
衍生相关工作
BPIC数据集系列衍生了许多相关的研究工作,包括在预测过程监控中使用深度学习模型、开发新的无偏见基准数据集和改进预测算法。这些相关工作不仅推动了预测过程监控领域的发展,也为其他相关领域如自然语言处理、强化学习和图像识别提供了重要的启示和借鉴。BPIC数据集系列已成为预测过程监控领域的重要基准,促进了新方法和算法的研究与开发。
以上内容由AI搜集并总结生成
