Industry Guidance Business Process Dataset (IGBPD)

github2025-03-12 更新2025-03-06 收录

下载链接：

https://github.com/Shawhan09/IGBPD

下载链接

链接失效反馈

官方服务：

资源简介：

IGBPD是一个从205个多行业指导文档中构建的结构化数据集，提供了跨多个领域的业务流程的全面表示，适用于流程挖掘研究和基于LLM的工作流分析。该数据集通过专家评估和自动化评估进行了验证，支持工作流验证、错误检测和下一步预测等任务。

IGBPD is a structured dataset constructed from 205 multi-industry guidance documents. It provides a comprehensive representation of business processes across multiple domains, and is applicable to process mining research and LLM-based workflow analysis. This dataset has been validated through both expert evaluation and automated assessment, and supports tasks such as workflow validation, error detection, and next-step prediction.

创建时间：

2025-03-04

原始信息汇总

IGBPD: Industry Guidance Business Process Dataset 概述

📖 简介

IGBPD（Industry Guidance Business Process Dataset）是一个结构化数据集，基于205份多行业指导文档构建，旨在解决流程挖掘中工作流可读性和可解释性的挑战。该数据集为流程挖掘研究和基于LLM的工作流分析提供了全面的业务工作流表示。

主要特点

通过专家人工评估和自动化评估验证
支持工作流验证、错误检测和下一步预测等任务
提供多种索引方法，确保适应性和通用性

📂 数据集结构

1️⃣ GraphData（工作流图表示）

包含业务工作流的依赖关系和节点转换数据：

NodeJump.csv → 不包含子域层的工作流数据
NodeJumpWhole.csv → 包含子域层的工作流数据
neo4jData/ → Neo4j兼容版本数据

用途：分析工作流依赖关系、流程转换，支持基于Neo4j的图探索。

2️⃣ TaksData（LLM评估任务）

包含多个测试集，用于评估LLM分析和理解工作流的能力：

任务1：工作流正确性分类

IC = 1 → 完全正确的工作流
IC = 0 or 1 → 包含错误的工作流

目标：测试LLM区分正确与错误工作流的能力。

任务2：领域和工作流分类

评估LLM在移除某些层次结构后识别正确领域、子域和工作流的能力：

提供三个不同测试文件，信息缺失程度不同

目标：评估LLM在不同信息缺失程度下的分类能力。

任务3：缺失信息下的下一步预测

包含23个测试文件
TestsetDescription.xlsx 提供各测试文件缺失信息详情

目标：评估LLM在缺失上下文细节时预测下一步的鲁棒性。

🔍 使用指南

图分析 → 使用GraphData进行工作流依赖关系和流程转换分析
LLM测试 → 使用TaksData进行工作流验证、分类和下一步预测的基准测试
自定义研究 → 适配AI驱动的流程挖掘和工作流自动化需求

📜 引用

bibtex @article{your_reference, title={IGBPD: A Business Process Dataset in Multi-Industry Guidance Documents}, author={Xiaohan Su, Bin Liang, Yifei Dong, Zhidong Li, Fang Chen}, journal={[KDD]}, year={2025} }

📧 联系方式

📩 [Xiaohan.Su@student.uts.edu.au]

搜集汇总

数据集介绍

构建方式

针对流程挖掘领域中提高工作流可读性和解释性的挑战，以及现有数据集在关键上下文信息方面的缺失，IGBPD数据集应运而生。该数据集由205份跨行业的指导文件构建而成，通过人工专家评估和自动化评估进行验证，为流程挖掘研究和基于大型语言模型的工作流分析提供了全面的业务工作流表示。

使用方法

使用IGBPD数据集，研究者可以进行图分析以探索工作流的依赖关系和转换，使用LLM测试数据来评估大型语言模型在工作流验证、分类和下一步预测方面的能力。此外，该数据集也可以根据用户的特定需求进行定制化研究，以推动人工智能驱动的流程挖掘和自动化工作流的创新。

背景与挑战

背景概述

随着流程挖掘领域的进展，工作流程的易读性和可解释性成为当前研究的重要挑战。大型语言模型（LLM）在此领域展现出巨大潜力，但现有数据集往往缺乏关键上下文信息，限制了其在分析实际工作流程中的效能。针对此问题， Industry Guidance Business Process Dataset (IGBPD) 便是在205个跨行业指导文件的基础上构建的结构化数据集，它提供了不同领域商业工作流程的全面代表，成为流程挖掘研究和基于LLM的工作流程分析的有力支撑。该数据集由专家基于人类评估和自动化评估进行验证，已在工作流验证、错误检测、下一步预测等任务中展现其效用。IGBPD的创建，标志着流程挖掘领域的一个重要进展，为相关研究提供了宝贵的资源。

当前挑战

IGBPD数据集面临的挑战主要在于：一是如何有效整合和利用所包含的丰富上下文信息，以提升LLM在分析实际工作流程时的准确性；二是数据集构建过程中，如何确保所包含的工作流程信息的全面性和准确性，以及如何适应和泛化到不同的分析需求。具体而言，该数据集在任务设置上，例如工作流正确性分类、领域与工作流分类以及缺失信息下的下一步预测，都为LLM的性能评估带来了挑战，特别是在处理信息缺失和上下文理解方面。这些挑战不仅考验着LLM的能力，也推动着流程挖掘领域的研究向更深层次发展。

常用场景

经典使用场景

在当前流程挖掘研究领域，IGBPD数据集以其丰富的行业指导文件构建的流程结构，成为支撑大型语言模型分析和理解实际工作流程的重要资源。该数据集的经典使用场景在于，研究者可以利用其提供的依赖关系和节点转换信息，进行工作流验证、错误检测和下一步预测等任务，从而深入探索流程挖掘的潜力。

解决学术问题

IGBPD数据集解决了现有流程挖掘研究中的关键问题，即缺乏包含关键上下文信息的数据集。其提供的综合性行业工作流程表示，使得研究者能够在具有实际应用背景的环境中评估和改进大型语言模型在流程分析中的效能，推动了学术领域对流程挖掘技术的深入理解和应用。

实际应用

在实际应用中，IGBPD数据集可为流程自动化和智能化提供基准测试，帮助企业识别流程中的瓶颈和错误，优化业务流程设计，提高工作效率。此外，通过对数据集的分析，企业可以预测业务流程中的下一步，为决策提供数据支持，实现流程的智能化管理。

数据集最近研究