PAGED

Name: PAGED
Creator: 四川大学计算机学院，机器学习与工业智能教育部工程研究中心
Published: 2024-08-08 09:19:46
License: 暂无描述

arXiv2024-08-08 更新2024-08-09 收录

下载链接：

https://github.com/SCUNLP/PAGED

下载链接

链接失效反馈

官方服务：

资源简介：

PAGED数据集由四川大学计算机学院和机器学习与工业智能教育部工程研究中心创建，是一个用于评估文档中程序图自动提取的大型高质量数据集。该数据集包含3394个程序文档-图对，通过三阶段流水线构建，确保了文档与图之间的逻辑一致性和自然语言描述的流畅性。数据集的创建旨在解决复杂程序图提取的挑战，特别是在处理非连续动作和约束方面，为大型语言模型在逻辑推理和非序列元素处理的研究提供重要见解。

The PAGED dataset was created by the School of Computer Science, Sichuan University and the Ministry of Education Engineering Research Center for Machine Learning and Industrial Intelligence. It is a large-scale high-quality dataset for evaluating automatic extraction of program diagrams from documents. This dataset contains 3394 program document-diagram pairs, which is constructed via a three-stage pipeline to ensure logical consistency between documents and their corresponding diagrams as well as the fluency of natural language descriptions. The dataset is designed to address the challenges in complex program diagram extraction, particularly in handling non-continuous actions and constraints, and provides important insights for research on large language models (LLMs) in logical reasoning and non-sequential element processing.

提供机构：

四川大学计算机学院，机器学习与工业智能教育部工程研究中心

创建时间：

2024-08-07

原始信息汇总

PAGED 数据集概述

数据集介绍

PAGED 是一个用于自动从文档中提取程序图的新基准。该基准旨在解决两个问题：

现有的研究是否已经很好地解决了这一任务。
新兴的大型语言模型（LLMs）是否能为这一任务带来新的机遇。

数据集特点

高质量数据集：PAGED 配备了一个大型高质量数据集。
标准评估：提供标准化的评估方法。
基线研究：调查了五个最先进的基线，揭示了它们由于过度依赖手写规则和有限可用数据而未能很好地提取最优程序图。
LLMs 应用：进一步引入了三个先进的 LLMs，并通过一种新颖的自精炼策略进行增强，结果显示 LLMs 在识别文本元素方面具有优势，但在构建逻辑结构方面存在差距。

数据集目标

PAGED 旨在成为自动程序图提取的主要里程碑，并希望通过其研究为非顺序元素之间的逻辑推理研究提供见解。

数据集和代码

数据集和代码即将发布。

搜集汇总

数据集介绍

构建方式

PAGED数据集的构建基于模型集合的业务流程（Dumas等人，2018年），该模型集合已将业务流程总结为高质量的流程图，其中包含完整的顺序动作、非顺序动作和约束。数据集的构建过程分为三个阶段：1）分解和转换，将流程图分解为最小的有意义的单元，并基于预定义的模板将这些单元转换为自然语言片段；2）分组和排序，使用预训练的边界识别模型对片段进行分组，并使用片段排序模型确定同一组中片段的顺序；3）聚合和平滑，使用边界识别模型将片段聚合到同一句子中，并使用ChatGPT对片段进行改写，以提高文档的质量和流畅性。最终，构建了一个包含3,394个高质量的流程文档-流程图对的数据集，是之前最大数据集的近十倍。

特点

PAGED数据集的特点是规模大、质量高。它包含的流程文档和流程图对数量是之前最大数据集的近十倍，且每个样本都包含了完整的顺序动作、非顺序动作和约束。此外，数据集的构建过程经过精心设计，通过三个阶段的处理，保证了生成的流程文档与原始流程图的一致性，并且符合人类的标准。最后，数据集的评估结果表明，相比其他两种变体，PAGED数据集在自动和人工评估中都取得了更好的性能。

使用方法

使用PAGED数据集的方法如下：首先，将数据集分为训练集、验证集和测试集；然后，收集现有的先进基线方法，并在PAGED上进行评估；最后，引入三种基于图结构和元素表面形式的指标，对基线方法的性能进行评估。对于LLMs，可以采用少样本上下文学习和监督微调策略，并在PAGED上进行评估。此外，为了帮助LLMs获得逻辑推理能力，可以设计一个自我改进策略，通过迭代反馈和改进来提高LLMs的性能。

背景与挑战

背景概述

PAGED数据集的创建旨在解决从文档中自动提取程序图的问题，这对于用户快速理解复杂程序具有重要意义。该数据集由四川大学计算机科学与技术学院和教育部机器学习与工业智能工程研究中心的研究团队于2024年提出，旨在为自动提取最优程序图的研究提供一个标准和大规模的数据集。PAGED数据集的核心研究问题是如何有效地从文档中提取包含顺序动作、非顺序动作和约束的程序图，并评估现有研究的性能。该数据集的提出对相关领域产生了深远的影响，为自动程序图提取研究提供了重要的数据基础和评估标准。

当前挑战

PAGED数据集面临的挑战主要表现在两个方面。首先，现有研究在提取最优程序图方面存在困难，主要原因是过度依赖手写规则和可用数据的限制。其次，大型语言模型（LLM）在处理程序图提取任务时，虽然在识别文本元素方面表现出优势，但在构建复杂的逻辑结构方面仍然存在挑战。具体来说，LLM在识别顺序动作和约束方面表现出色，但在组织和表示非顺序动作方面仍然面临困难。为了克服这些挑战，研究团队提出了一个自我精炼策略，通过迭代反馈和改进，帮助LLM获得在动作之间的逻辑推理能力，包括非顺序动作。这一策略在实际应用中取得了显著的效果，为LLM在程序图提取任务中的应用提供了新的思路和方法。

常用场景

经典使用场景

PAGED数据集主要用于文档中过程图的自动提取，通过将复杂的过程以可视化的方式呈现给用户，降低用户理解复杂过程的成本。该数据集的构建基于一个三阶段流水线，将结构化的过程图转换为自然语言文本，并确保文档的逻辑性和自然性。PAGED数据集包含了3,394个高质量的过程文档-图对，是之前最大数据集的十倍，为研究和评估过程图提取模型提供了丰富的资源。

实际应用

PAGED数据集的实际应用场景包括但不限于：1）过程文档的自动生成，如业务流程文档、操作手册等；2）过程图的自动提取，如从业务流程文档中提取BPMN图；3）过程理解的研究，如理解非顺序动作的逻辑结构。PAGED数据集为这些应用场景提供了高质量的数据资源，有助于提高过程理解和自动生成的准确性和效率。

衍生相关工作

PAGED数据集的发布推动了过程图提取和相关领域的研究。例如，PAGED数据集被用于评估和改进大型语言模型在过程图提取方面的性能，并揭示了LLM在识别文本元素和构建逻辑结构方面的优势。此外，PAGED数据集还被用于研究过程理解和自动生成的相关技术，如数据到文本的转换、逻辑推理等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集