WorkflowBench

github2024-11-08 更新2024-11-28 收录

下载链接：

https://github.com/OpenBMB/WorkflowLLM

下载链接

链接失效反馈

官方服务：

资源简介：

WorkflowBench是一个大规模的监督微调数据集，包含106,763个样本，涵盖1,503个API，来自83个应用程序，跨越28个类别。该数据集旨在增强大型语言模型在工作流编排中的能力。

WorkflowBench is a large-scale supervised fine-tuning dataset containing 106,763 samples, covering 1,503 APIs from 83 applications and spanning 28 categories. This dataset aims to enhance the capabilities of Large Language Models (LLMs) in workflow orchestration.

创建时间：

2024-11-08

原始信息汇总

WorkflowLLM 数据集概述

数据集概览

WorkflowLLM 是一个以数据为中心的框架，旨在增强大型语言模型（LLMs）在工作流编排方面的能力。其核心是 WorkflowBench，这是一个大规模的监督微调数据集，包含 106,763 个样本，涵盖 1,503 个 API，来自 83 个应用程序，跨越 28 个类别。

数据集组成

数据集概述

该数据集由两部分组成：

转写后的真实世界数据
额外的合成数据

数据集中动作数量、工作流类别及使用的应用程序的分布对比如下图所示：

Data Distribution Comparison

数据集访问

数据集可通过以下链接下载：Google Drive。下载后，请将内容解压到 ./data/ 目录下。

数据目录结构如下：

./data/ │ ├── dataset_split_keys.json ├── dataset_split_keys_ood.json ├── identifier2json.pkl ├── identifier2python.pkl ├── seed_data.json ├── statistics.pkl └── synthesized_data.json

文件描述

dataset_split_keys.json: 包含数据集的分割信息，用于未见过的指令（In Distribution, ID）。
dataset_split_keys_ood.json: 包含数据集的分割信息，用于未见过的 API（Out of Distribution, OOD）。
identifier2json.pkl: 存储 API 文档的 Python pickle 文件，格式为 JSON。
identifier2python.pkl: 存储 API 文档的 Python pickle 文件，格式为 Python 特定格式。
seed_data.json: 包含转写后的真实世界数据。
synthesized_data.json: 包含合成的数据。
statistics.pkl: 包含数据集的统计信息，如 API 类别、动作数量、嵌套数量等。

数据预处理

原始的 Apple Shortcuts 使用属性列表（plist）格式，不易于模型训练。我们将其转换为抽象语法树（AST）表示，以增强可读性和实用性。转换算法如下图所示：

Parsing Algorithm

通过预序遍历 AST，我们能够获得与 Shortcuts 逻辑对应的 Python 代码。

模型实验结果

Model	BLEU (ID)	BLEU (OOD)	Weighted N-Gram (ID)	Weighted N-Gram (OOD)	AST (ID)	AST (OOD)	Data-Flow (ID)	Data-Flow (OOD)	Overall (ID)	Overall (OOD)	Pass Rate (ID)	Pass Rate (OOD)
Proprietary Models
GPT-4o-mini	0.4	0.4	1.5	1.6	29.5	29.5	37.0	36.3	26.8	26.5	54.8	47.5
w/ ICL	0.5	0.5	1.7	1.8	35.3	34.4	35.1	34.2	28.3	27.7	66.0	57.7
GPT-4o	0.5	0.4	1.8	1.7	33.5	31.8	37.3	36.9	28.5	27.7	56.6	47.5
w/ ICL	0.5	0.5	1.8	1.8	37.1	35.3	38.0	36.6	30.2	30.0	67.5	57.6
Open-Source Models
Qwen2-7B	0.4	0.4	1.2	1.3	27.2	27.7	33.2	33.1	24.4	24.5	25.6	22.6
w/ ICL	0.5	0.5	1.2	1.3	30.2	29.8	32.4	32.9	25.2	25.3	28.2	26.4
Llama-3.1-8B	0.6	0.7	1.2	1.4	31.0	29.6	30.0	30.8	24.6	24.3	33.0	24.5
w/ ICL	0.7	0.7	1.3	1.4	34.0	32.4	32.6	32.4	25.3	25.2	40.2	32.7
Llama-3.1-70B	0.4	0.4	1.4	1.5	29.9	30.0	37.8	37.6	27.3	27.2	55.4	42.3
w/ ICL	0.4	0.4	1.6	1.5	34.1	32.9	39.1	38.4	29.5	28.7	67.6	61.4
WorkflowLlama (8B)	9.4	7.0	11.09	8.3	55.1	48.8	38.0	35.3	39.3	35.1	76.9	70.4

搜集汇总

数据集介绍

构建方式

WorkflowBench数据集的构建过程分为三个主要阶段。首先，通过收集真实世界的Apple快捷方式，并将其转录为Python风格的代码，从而获取基础数据。其次，利用ChatGPT生成多样化和复杂的任务查询，以扩展数据集的多样性。最后，通过训练一个基于收集数据的人工标注模型，生成合成的工作流程，并经过质量检查后与收集的样本合并，形成最终的数据集。

特点

WorkflowBench数据集具有显著的特点。它包含106,763个样本，涵盖1,503个API，来自83个应用程序，跨越28个类别。数据集的平均动作数为78.1，平均条件语句数为7.4，平均循环数为0.5。这些特点使得WorkflowBench成为增强大型语言模型工作流程编排能力的重要资源。

使用方法

使用WorkflowBench数据集时，首先需从Google Drive下载数据集并解压至指定目录。数据集分为两部分：转录的真实世界数据和合成的数据。用户可以通过提供的训练和评估脚本进行模型训练和推理。训练脚本支持自动加载数据集和配置模型，并保存中间检查点。推理脚本则允许用户加载训练好的模型进行预测。

背景与挑战

背景概述

WorkflowBench数据集是由WorkflowLLM框架的核心组成部分，旨在增强大型语言模型（LLMs）在流程编排中的能力。该数据集于2024年10月29日正式发布，由一支专注于流程自动化和LLM优化的研究团队创建。WorkflowBench包含了106,763个样本，涵盖1,503个API，来自83个应用程序，跨越28个类别。其核心研究问题是如何通过大规模监督微调数据集来提升LLMs在复杂流程编排任务中的表现。WorkflowBench的创建不仅推动了流程自动化领域的发展，还为LLMs在实际应用中的性能提升提供了有力支持。

当前挑战

WorkflowBench数据集在构建过程中面临多项挑战。首先，数据收集阶段需要从如RoutineHub等平台收集真实的Apple快捷方式，并将其转录为Python风格的代码，这一过程涉及复杂的格式转换和数据清洗。其次，查询扩展阶段利用ChatGPT生成多样且复杂的任务查询，以丰富数据集，这要求模型具备高度的生成能力和语义理解。最后，工作流生成阶段通过训练的注释模型生成合成查询的工作流，并进行质量检查和合并，确保数据集的高质量和多样性。此外，WorkflowBench还需应对处理未见过的API和指令的挑战，以确保模型在实际应用中的泛化能力。

常用场景

经典使用场景

WorkflowBench数据集的经典使用场景在于增强大型语言模型（LLMs）在流程编排中的能力。通过该数据集，研究者可以训练和微调模型，使其能够理解和生成复杂的API调用序列，从而实现自动化工作流程的编排。这种能力在处理多步骤、多API交互的任务时尤为重要，例如在企业级应用中自动执行一系列操作或集成多个服务。

衍生相关工作

WorkflowBench数据集的发布催生了一系列相关研究和工作，特别是在流程自动化和大型语言模型的结合领域。例如，基于该数据集，研究者们开发了WorkflowLlama模型，该模型在流程编排任务中表现出色，并展示了良好的泛化能力。此外，WorkflowBench还激发了对API调用序列生成和优化算法的研究，推动了流程自动化技术的进一步发展。

数据集最近研究