ProcessTBench

Name: ProcessTBench
Creator: 丹麦技术大学
Published: 2024-09-20 00:46:17
License: 暂无描述

arXiv2024-09-20 更新2024-09-18 收录

下载链接：

https://github.com/microsoft/ProcessTBench

下载链接

链接失效反馈

官方服务：

资源简介：

ProcessTBench是一个用于评估大型语言模型（LLM）在流程挖掘框架下生成计划能力的合成数据集。该数据集基于TaskBench构建，包含532个基础查询，每个查询被重新表述5到6次，平均每个查询有4.08个解决方案计划。数据集涉及使用40种独特工具的行动序列，并提供了相应的真实计划以Petri网格式。数据集的创建过程包括从TaskBench中选择最具挑战性的子集，使用LLM生成计划，并通过事件日志解析器和计划一致性检查器进行处理。ProcessTBench旨在支持研究LLM在复杂和动态环境中的计划生成行为，特别是在处理多语言和重新表述查询时的表现。

ProcessTBench is a synthetic dataset designed to evaluate the plan generation capabilities of Large Language Models (LLMs) within the process mining framework. Built upon TaskBench, this dataset includes 532 base queries, each of which is rephrased 5 to 6 times, with an average of 4.08 solution plans per query. It covers action sequences utilizing 40 distinct tools, and provides corresponding ground-truth plans in Petri net format. The dataset creation process involves selecting the most challenging subset from TaskBench, generating plans with LLMs, and processing the data via event log parsers and plan consistency checkers. ProcessTBench aims to support research on the plan generation behaviors of LLMs in complex and dynamic environments, particularly their performance when handling multilingual and rephrased queries.

提供机构：

丹麦技术大学

创建时间：

2024-09-14

原始信息汇总

ProcessTBench 数据集概述

数据集内容

生成的计划和变体

描述: 包含不同计划，用于提供过程ID中的问题目标。
生成方式: 使用 generate_plans_and_variants.py 生成。

改写后的查询

描述: 对 TaskBench 数据集中的问题进行改写。
生成方式: 使用 paraphrase_queries.py 生成。
来源: TaskBench 数据集 (https://github.com/microsoft/JARVIS/tree/main/taskbench)。

过程模型

描述: 包含生成的计划的过程模型。
生成方式: 使用归纳矿工（inductive miner），阈值分别为 0、0.1 和 0.2。
额外信息: 将问题的参考DAG转换为Petri网，示例生成代码在 dag_to_petri_net_results.py 中。

一致性质量

描述: 包含通过一致性检查评估改写查询质量的结果。
生成方式: 使用 generate_plans_conformance_quality_rephrased.py 和 generate_plans_conformance_quality_original.py 生成。

TaskBench 数据

文件:
- taskbench_multimedia.json
- taskbench_multimedia_dag.json
- taskbench_multimedia_dag_partitioned.json (多进程分区)
- tool_desc_multimedia.json

其他文件

工具和模型:
- utils.py
- my_model.py (嵌入和LLM模型设置)
- readme.md
- requirements.txt

搜集汇总

数据集介绍

构建方式

ProcessTBench数据集的构建基于TaskBench数据集，专注于任务复杂性、工具使用和过程特征。该数据集包括从TaskBench中最具挑战性的子集中选取的532个基础查询，每个查询被重新表述5到6次，平均每个查询有4.08个解决方案计划。这些计划涉及使用40个独特工具的动作序列。此外，ProcessTBench还包括与查询对应的Petri网格式的真实计划。数据生成流程包括从TaskBench查询和真实计划中选择最具挑战性的子集，使用LLM规划器生成解决方案计划，并通过LLM计划变体生成器生成替代计划，最后通过事件日志解析器将这些计划解析为可用于过程挖掘的事件日志。

特点

ProcessTBench数据集的特点在于其复杂性和多样性。它不仅包含了多语言查询的重新表述，还提供了多种解决方案计划，以评估LLM在不同查询表述下的表现。此外，该数据集还包括了真实计划和生成的计划，这些计划以Petri网格式表示，便于进行过程挖掘分析。数据集中的每个查询都与一个真实计划和多个LLM生成的计划相关联，这些计划涉及的动作序列和工具使用情况为研究LLM的计划生成能力提供了丰富的数据支持。

使用方法

ProcessTBench数据集可用于多种研究场景，包括评估LLM在复杂任务中的计划生成能力、测试LLM对多语言和重新表述查询的处理能力，以及应用过程挖掘技术分析LLM生成的计划。研究者可以通过该数据集评估LLM在不同查询表述下的表现，分析生成的计划与真实计划之间的符合度，以及探索LLM在复杂和动态环境中的适应性和鲁棒性。此外，该数据集还可用于开发和测试新的LLM框架，以提高其在实际应用中的表现。

背景与挑战

背景概述

随着大型语言模型（LLMs）在计划生成领域的显著进展，ProcessTBench数据集应运而生，旨在填补现有数据集在复杂工具使用场景中的不足。该数据集由丹麦技术大学和微软哥本哈根开发中心的研究人员于2023年9月至2024年2月期间创建，主要研究人员包括Andrei Cosmin Redis、Mohammadreza Fani Sani、Bahram Zarrin和Andrea Burattin。ProcessTBench扩展了TaskBench数据集，专注于评估LLMs在过程挖掘框架中的计划生成能力。其核心研究问题包括处理复述查询、支持多语言以及管理并行动作，这些问题对于评估LLMs在实际应用中的能力至关重要。该数据集的推出，不仅提升了LLMs在复杂任务中的可靠性评估，还为过程挖掘领域的研究提供了新的视角和工具。

当前挑战

ProcessTBench数据集在构建过程中面临多项挑战。首先，处理复述查询和多语言支持增加了数据集的复杂性，要求LLMs具备高度的鲁棒性和适应性。其次，构建过程中需要生成多种计划变体，以评估LLMs在不同查询表述下的表现，这增加了数据生成的难度和计算资源的需求。此外，数据集还需要进行严格的计划一致性检查，以确保生成的计划符合既定的过程模型。这些挑战不仅涉及技术层面的复杂性，还包括对LLMs在实际应用中可能遇到的各种情况的全面模拟和评估。

常用场景

经典使用场景

在大型语言模型（LLMs）的快速发展背景下，ProcessTBench数据集被设计用于评估LLMs在复杂任务自动化中的计划生成能力。该数据集特别关注于处理多语言和重述查询，以及管理可以并行执行的动作。通过提供多语言查询的重述和复杂的任务序列，ProcessTBench为研究LLMs在实际应用中的适应性和鲁棒性提供了宝贵的资源。

实际应用

ProcessTBench数据集在多个实际应用场景中展示了其价值，特别是在需要复杂任务自动化和多语言支持的领域。例如，在跨国公司的全球运营中，LLMs需要处理不同语言的查询并生成相应的行动计划。此外，在紧急响应和复杂流程管理中，LLMs的并行处理能力对于提高效率和准确性至关重要。ProcessTBench通过提供一个包含多语言重述查询和复杂任务序列的基准，为这些实际应用场景提供了强有力的支持。

衍生相关工作

ProcessTBench数据集的引入激发了一系列相关研究工作，特别是在LLMs的计划生成和过程挖掘领域。例如，研究人员利用该数据集开发了新的计划生成算法，以提高LLMs在处理复杂查询和多语言环境中的性能。此外，ProcessTBench还促进了过程挖掘技术在LLMs计划生成中的应用，通过分析生成的计划来识别常见模式和潜在改进点。这些衍生工作不仅增强了LLMs的实际应用能力，还推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集