five

BPIC 2012, BPIC 2015, BPIC 2017, BPIC 2019, BPIC 2020

收藏
arXiv2021-07-05 更新2024-06-21 收录
下载链接:
https://data.4tu.nl/collections/BPI Challenge 2015/5065424
下载链接
链接失效反馈
官方服务:
资源简介:
本研究使用五个公开的4TU.ResearchData仓库中的数据集(BPIC 2012至BPIC 2020),这些数据集记录了不同业务流程的事件日志,如贷款申请、建筑许可申请等。每个数据集包含数千至数十万条事件记录,目标为预测案例完成前的剩余时间。数据集创建过程中,研究者通过预处理步骤消除数据泄露和偏差,确保数据集的无偏性和可重复性。这些数据集主要应用于预测过程监控领域,旨在通过机器学习模型提高业务流程的监控效率和准确性。

This study employs five publicly accessible datasets from the 4TU.ResearchData repository, spanning BPIC 2012 to BPIC 2020. These datasets record event logs of diverse business processes, including loan applications, building permit applications, and more. Each dataset contains thousands to hundreds of thousands of event records, with the core objective of predicting the remaining time prior to the completion of a process case. During the dataset preparation phase, researchers eliminated data leakage and bias through preprocessing procedures to ensure the unbiasedness and reproducibility of the datasets. These datasets are primarily utilized in the domain of predictive process monitoring, aiming to enhance the monitoring efficiency and accuracy of business processes via machine learning models.
提供机构:
信息系统工程研究中心(LIRIS),鲁汶大学,鲁汶,比利时
创建时间:
2021-07-05
搜集汇总
数据集介绍
main_image_url
构建方式
BPIC系列数据集的构建方式涉及对公共流程挖掘数据集进行预处理,旨在创建无偏见的基准数据集。研究人员首先对九个常用的公共流程挖掘数据集进行了分析,以揭示现有数据集构建过程中存在的问题。接着,他们提出了一系列预处理步骤,包括消除时间序列异常值和重复数据、消除数据集末尾的偏差、选择测试集、时间分割、消除测试集开头的偏差以及移除过长的案例。这些步骤旨在确保训练集和测试集之间的严格时间分割,并消除数据泄露和偏差问题。
特点
BPIC系列数据集的特点在于其无偏见性、严格的时间分割和代表性。数据集的构建过程考虑了时间序列异常值和重复数据的消除,以减少数据泄露的风险。此外,通过消除数据集末尾的偏差和测试集开头的偏差,确保了测试集能够更好地代表整个数据集。严格的时间分割确保了训练集和测试集之间的独立性,从而提高了预测的准确性。
使用方法
BPIC系列数据集的使用方法包括预处理步骤和模型预测。预处理步骤包括消除时间序列异常值和重复数据、消除数据集末尾的偏差、选择测试集、时间分割、消除测试集开头的偏差以及移除过长的案例。这些步骤旨在创建无偏见的基准数据集,以便研究人员可以自由地对训练集进行处理,并在给定的测试集上测试他们的结果。模型预测部分通常涉及使用卷积神经网络(CNN)等机器学习模型对预处理后的数据进行训练和测试,以预测案例的剩余时间或未来事件。
背景与挑战
背景概述
BPIC系列数据集,包括BPIC 2012、BPIC 2015、BPIC 2017、BPIC 2019和BPIC 2020,是由KU Leuven的研究中心LIRIS创建的。这些数据集主要用于预测流程监控(PPM)领域的研究,该领域涉及预测流程中的下一个事件、流程结果和剩余执行时间。BPIC数据集的创建旨在解决流程挖掘研究中存在的几个主要障碍,包括数据集使用的多样性、训练和测试集的分割方式、数据泄露问题以及测试集的偏差。BPIC系列数据集的创建和发布对促进预测流程监控领域的公平竞争、开放科学和快速进步具有重要意义。
当前挑战
BPIC数据集面临的挑战主要包括以下几个方面:1)数据集使用的多样性:研究人员使用不同的数据集和分割方式,导致结果难以比较和复现。2)训练和测试集的分割问题:标准的时间分割或交叉验证技术会导致数据泄露,影响预测性能。3)测试集的偏差:测试集在案例持续时间和运行案例数量方面存在偏差,这会影响预测结果的准确性。为了克服这些挑战,BPIC数据集的创建者提出了一系列预处理步骤,旨在创建无偏见的基准数据集,从而促进预测流程监控领域的研究和发展。
常用场景
经典使用场景
BPIC数据集系列,包括BPIC 2012, BPIC 2015, BPIC 2017, BPIC 2019和BPIC 2020,被广泛用于预测过程监控的研究。这些数据集记录了各种业务流程的事件日志,为预测下一个事件、过程结果和剩余执行时间提供了丰富的数据基础。经典的使用场景包括使用BPIC数据集进行剩余时间预测,通过深度学习模型如卷积神经网络(CNN)来训练和测试,以评估模型在现实世界业务流程中的预测能力。
解决学术问题
BPIC数据集系列解决了预测过程监控中数据集不一致性、数据泄露和偏差的问题。通过创建无偏见的基准数据集,研究人员可以更公平地比较他们的结果,促进研究的可重复性和开放科学。此外,BPIC数据集通过严格的时序分割和预处理步骤,确保了训练集和测试集之间的独立性,从而避免了数据泄露问题,这对于预测过程监控的准确性至关重要。
衍生相关工作
BPIC数据集系列衍生了许多相关的研究工作,包括在预测过程监控中使用深度学习模型、开发新的无偏见基准数据集和改进预测算法。这些相关工作不仅推动了预测过程监控领域的发展,也为其他相关领域如自然语言处理、强化学习和图像识别提供了重要的启示和借鉴。BPIC数据集系列已成为预测过程监控领域的重要基准,促进了新方法和算法的研究与开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作