five

WorkflowBench

收藏
github2024-11-08 更新2024-11-28 收录
下载链接:
https://github.com/OpenBMB/WorkflowLLM
下载链接
链接失效反馈
官方服务:
资源简介:
WorkflowBench是一个大规模的监督微调数据集,包含106,763个样本,涵盖1,503个API,来自83个应用程序,跨越28个类别。该数据集旨在增强大型语言模型在工作流编排中的能力。

WorkflowBench is a large-scale supervised fine-tuning dataset containing 106,763 samples, covering 1,503 APIs from 83 applications and spanning 28 categories. This dataset aims to enhance the capabilities of Large Language Models (LLMs) in workflow orchestration.
创建时间:
2024-11-08
原始信息汇总

WorkflowLLM 数据集概述

数据集概览

WorkflowLLM 是一个以数据为中心的框架,旨在增强大型语言模型(LLMs)在工作流编排方面的能力。其核心是 WorkflowBench,这是一个大规模的监督微调数据集,包含 106,763 个样本,涵盖 1,503 个 API,来自 83 个应用程序,跨越 28 个类别

数据集组成

数据集概述

该数据集由两部分组成:

  1. 转写后的真实世界数据
  2. 额外的合成数据

数据集中动作数量、工作流类别及使用的应用程序的分布对比如下图所示:

Data Distribution Comparison

数据集访问

数据集可通过以下链接下载:Google Drive。下载后,请将内容解压到 ./data/ 目录下。

数据目录结构如下:

./data/ │ ├── dataset_split_keys.json ├── dataset_split_keys_ood.json ├── identifier2json.pkl ├── identifier2python.pkl ├── seed_data.json ├── statistics.pkl └── synthesized_data.json

文件描述

  • dataset_split_keys.json: 包含数据集的分割信息,用于未见过的指令(In Distribution, ID)。
  • dataset_split_keys_ood.json: 包含数据集的分割信息,用于未见过的 API(Out of Distribution, OOD)。
  • identifier2json.pkl: 存储 API 文档的 Python pickle 文件,格式为 JSON。
  • identifier2python.pkl: 存储 API 文档的 Python pickle 文件,格式为 Python 特定格式。
  • seed_data.json: 包含转写后的真实世界数据。
  • synthesized_data.json: 包含合成的数据。
  • statistics.pkl: 包含数据集的统计信息,如 API 类别、动作数量、嵌套数量等。

数据预处理

原始的 Apple Shortcuts 使用属性列表(plist)格式,不易于模型训练。我们将其转换为抽象语法树(AST)表示,以增强可读性和实用性。转换算法如下图所示:

Parsing Algorithm

通过预序遍历 AST,我们能够获得与 Shortcuts 逻辑对应的 Python 代码。

模型实验结果

Model BLEU (ID) BLEU (OOD) Weighted N-Gram (ID) Weighted N-Gram (OOD) AST (ID) AST (OOD) Data-Flow (ID) Data-Flow (OOD) Overall (ID) Overall (OOD) Pass Rate (ID) Pass Rate (OOD)
Proprietary Models
GPT-4o-mini 0.4 0.4 1.5 1.6 29.5 29.5 37.0 36.3 26.8 26.5 54.8 47.5
w/ ICL 0.5 0.5 1.7 1.8 35.3 34.4 35.1 34.2 28.3 27.7 66.0 57.7
GPT-4o 0.5 0.4 1.8 1.7 33.5 31.8 37.3 36.9 28.5 27.7 56.6 47.5
w/ ICL 0.5 0.5 1.8 1.8 37.1 35.3 38.0 36.6 30.2 30.0 67.5 57.6
Open-Source Models
Qwen2-7B 0.4 0.4 1.2 1.3 27.2 27.7 33.2 33.1 24.4 24.5 25.6 22.6
w/ ICL 0.5 0.5 1.2 1.3 30.2 29.8 32.4 32.9 25.2 25.3 28.2 26.4
Llama-3.1-8B 0.6 0.7 1.2 1.4 31.0 29.6 30.0 30.8 24.6 24.3 33.0 24.5
w/ ICL 0.7 0.7 1.3 1.4 34.0 32.4 32.6 32.4 25.3 25.2 40.2 32.7
Llama-3.1-70B 0.4 0.4 1.4 1.5 29.9 30.0 37.8 37.6 27.3 27.2 55.4 42.3
w/ ICL 0.4 0.4 1.6 1.5 34.1 32.9 39.1 38.4 29.5 28.7 67.6 61.4
WorkflowLlama (8B) 9.4 7.0 11.09 8.3 55.1 48.8 38.0 35.3 39.3 35.1 76.9 70.4
搜集汇总
数据集介绍
main_image_url
构建方式
WorkflowBench数据集的构建过程分为三个主要阶段。首先,通过收集真实世界的Apple快捷方式,并将其转录为Python风格的代码,从而获取基础数据。其次,利用ChatGPT生成多样化和复杂的任务查询,以扩展数据集的多样性。最后,通过训练一个基于收集数据的人工标注模型,生成合成的工作流程,并经过质量检查后与收集的样本合并,形成最终的数据集。
特点
WorkflowBench数据集具有显著的特点。它包含106,763个样本,涵盖1,503个API,来自83个应用程序,跨越28个类别。数据集的平均动作数为78.1,平均条件语句数为7.4,平均循环数为0.5。这些特点使得WorkflowBench成为增强大型语言模型工作流程编排能力的重要资源。
使用方法
使用WorkflowBench数据集时,首先需从Google Drive下载数据集并解压至指定目录。数据集分为两部分:转录的真实世界数据和合成的数据。用户可以通过提供的训练和评估脚本进行模型训练和推理。训练脚本支持自动加载数据集和配置模型,并保存中间检查点。推理脚本则允许用户加载训练好的模型进行预测。
背景与挑战
背景概述
WorkflowBench数据集是由WorkflowLLM框架的核心组成部分,旨在增强大型语言模型(LLMs)在流程编排中的能力。该数据集于2024年10月29日正式发布,由一支专注于流程自动化和LLM优化的研究团队创建。WorkflowBench包含了106,763个样本,涵盖1,503个API,来自83个应用程序,跨越28个类别。其核心研究问题是如何通过大规模监督微调数据集来提升LLMs在复杂流程编排任务中的表现。WorkflowBench的创建不仅推动了流程自动化领域的发展,还为LLMs在实际应用中的性能提升提供了有力支持。
当前挑战
WorkflowBench数据集在构建过程中面临多项挑战。首先,数据收集阶段需要从如RoutineHub等平台收集真实的Apple快捷方式,并将其转录为Python风格的代码,这一过程涉及复杂的格式转换和数据清洗。其次,查询扩展阶段利用ChatGPT生成多样且复杂的任务查询,以丰富数据集,这要求模型具备高度的生成能力和语义理解。最后,工作流生成阶段通过训练的注释模型生成合成查询的工作流,并进行质量检查和合并,确保数据集的高质量和多样性。此外,WorkflowBench还需应对处理未见过的API和指令的挑战,以确保模型在实际应用中的泛化能力。
常用场景
经典使用场景
WorkflowBench数据集的经典使用场景在于增强大型语言模型(LLMs)在流程编排中的能力。通过该数据集,研究者可以训练和微调模型,使其能够理解和生成复杂的API调用序列,从而实现自动化工作流程的编排。这种能力在处理多步骤、多API交互的任务时尤为重要,例如在企业级应用中自动执行一系列操作或集成多个服务。
衍生相关工作
WorkflowBench数据集的发布催生了一系列相关研究和工作,特别是在流程自动化和大型语言模型的结合领域。例如,基于该数据集,研究者们开发了WorkflowLlama模型,该模型在流程编排任务中表现出色,并展示了良好的泛化能力。此外,WorkflowBench还激发了对API调用序列生成和优化算法的研究,推动了流程自动化技术的进一步发展。
数据集最近研究
最新研究方向
在自然语言处理领域,WorkflowBench数据集的最新研究方向主要集中在增强大型语言模型(LLMs)的工作流编排能力。WorkflowBench通过收集和转写真实世界的工作流数据,结合ChatGPT进行层次化思维生成和查询扩展,构建了一个包含106,763个样本的大规模监督微调数据集。该数据集不仅涵盖了1,503个API和83个应用,还跨越了28个类别,为模型提供了丰富的训练资源。研究者们利用WorkflowBench数据集对Llama-3.1-8B模型进行微调,创建了专门优化工作流编排任务的WorkflowLlama模型。实验结果表明,WorkflowLlama在编排复杂工作流和泛化到未见过的API方面表现出色,显著提升了LLMs在实际应用中的自动化流程能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作