Flow-Bench

github2025-05-20 更新2025-05-22 收录

下载链接：

https://github.com/IBM/flow-bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在支持利用大型语言模型（LLM）将自然语言转换为具有Python语法的中间表示，以便最终转换为广泛采用的业务流程定义语言。数据集包含101个增量构建测试用例，专注于支持和评估自然语言驱动的业务流程自动化方法。FLOW-BENCH采用了Python语法的受限子集，包括赋值语句、条件语句（if语句）、循环（for和while）以及函数调用。

The dataset is designed to support the utilization of large language models (LLM) in converting natural language to an intermediate representation with Python syntax, for eventual transformation into widely-adopted business process definition languages. The dataset includes 101 incremental build test cases, focusing on supporting and evaluating natural language-driven business process automation methods. FLOW-BENCH employs a restricted subset of Python syntax, including assignment statements, conditional statements (if statements), loops (for and while), and function calls.

创建时间：

2025-05-14

原始信息汇总

Flow-Bench 数据集概述

数据集简介

目的：支持利用LLM将自然语言转换为具有Python语法的中间表示，进而转化为广泛采用的业务流程定义语言。
构建方法：采用101个增量构建测试用例，用于支持和评估自然语言驱动的业务流程自动化方法。
语法规范：采用受限的Python语法子集，包括赋值语句、条件语句（if语句）、循环（for和while）以及函数调用。

数据集内容

测试用例文件：conditional_ootb.yaml，包含101个测试用例。
- 每个测试用例包含：
  - metadata：包含tags（如conditional、linear、update、delete或creation）。
  - prior_sequence：先前创建的BPMN的Python语法表示。
  - bpmn：指向context文件夹中对应的BPMN表示。
  - expected_output：包含预期的Python语法表示和指向output文件夹中BPMN表示的引用。
API描述文件：ootb_catalog.json，包含API的唯一标识符id和description。

示例

测试用例示例： yaml
- _metadata: tags: - "97" - conditional_update - conditional_update_replace uid: 97 input: utterance: |- Instead of retrieving all the issues just create a new issue in each repo prior_sequence: - |- repositories = GitHub_Repository__3_0_0__retrievewithwhere_Repository() for repo in repositories: new_issue = GitHub_Issue__3_0_0__retrievewithwhere_Issue() prior_context: [] bpmn: $ref: "context/uid_97_context.bpmn" expected_output: sequence: - |- repositories = GitHub_Repository__3_0_0__retrievewithwhere_Repository() for repo in repositories: updated_issue = GitHub_Issue__3_0_0__create_Issue() bpmn: $ref: "output/uid_97_output.bpmn"
API描述示例： json { "id": "bambooHR_benefits__2_0_0__retrievewithwhere_benefits", "description": "Retrieve all the benefit deduction types" }

贡献者

Evelyn Duesterwald
Siyu Huo
Vatche Isahagian
K.R. Jayaram
Ritesh Kumar
Vinod Muthusamy
Punleuk Oum
Debashish Saha
Gegi Thomas
Praveen Venkateswaran

搜集汇总

数据集介绍

构建方式

Flow-Bench数据集构建于自然语言驱动的业务流程自动化研究领域，采用严谨的学术方法论开发而成。研究团队通过精心设计的101个增量构建测试用例，系统性地覆盖了业务流程建模中的核心场景。数据集采用Python语法子集作为中间表示形式，包含赋值语句、条件语句、循环结构和函数调用等基础编程结构，确保了表达能力的完备性。每个测试案例都经过严格验证，包含自然语言描述、先前上下文序列以及对应的BPMN流程模型参考，为评估自然语言到业务流程的转换算法提供了标准化基准。

特点

Flow-Bench数据集最显著的特点是采用约束性Python语法作为中间表示层，这种设计既保留了编程语言的精确性，又降低了业务用户的理解门槛。数据集中的每个测试案例都配备完善的元数据标注，包括测试类型标记（条件型/线性）和操作类别（更新/删除/创建）。特别值得注意的是，数据集同时提供Python语法表示和标准BPMN模型的双重参考，这种双重表征方式为跨模态研究提供了独特价值。测试案例覆盖GitHub、BambooHR等典型企业系统API操作，具有鲜明的实际应用导向。

使用方法

使用Flow-Bench数据集时，研究人员可通过解析conditional_ootb.yaml文件获取完整的测试案例集合。每个案例包含自然语言输入utterance字段、先前业务流程上下文prior_sequence，以及预期输出expected_output。配套的ootb_catalog.json文件提供API操作的标准化描述，便于理解业务流程语义。评估时可将算法生成的Python中间表示与数据集提供的ground truth进行对比，同时参考对应的BPMN模型验证业务流程的正确性。数据集特别适用于测试自然语言到业务流程的转换系统，也可用于业务流程建模工具的基准测试。

背景与挑战

背景概述

Flow-Bench数据集由IBM研究院等机构的Evelyn Duesterwald等学者于2025年推出，旨在推动自然语言驱动的业务流程自动化研究。该数据集聚焦于探索大型语言模型将自然语言指令转换为中间表示的能力，这种中间表示采用受限的Python语法子集，可进一步转化为标准的业务流程建模标记（BPMN）。作为首个专门针对对话式工作流生成任务的基准测试集，其101个增量构建测试案例覆盖了条件更新、循环操作等典型业务场景，为评估自然语言到工作流转换技术的性能提供了标准化框架。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需要解决自然语言指令与结构化工作流元素间的语义鸿沟，特别是处理业务逻辑中的隐含上下文依赖和操作意图歧义；在构建过程中，需平衡Python语法子集的表达能力与BPMN转换的可行性，同时确保测试案例覆盖API调用、条件分支等核心业务操作。数据集验证阶段还涉及复杂的技术验证，包括自然语言指令、中间表示与最终BPMN工作流三者之间的逻辑一致性检验。

常用场景

经典使用场景

在自然语言处理与业务流程自动化的交叉领域，Flow-Bench数据集为研究者提供了一个标准化的测试平台。该数据集通过101个增量构建的测试案例，专注于评估自然语言到业务流程定义语言的转换能力。其经典使用场景包括验证大型语言模型在理解自然语言指令后，能否准确生成符合Python语法约束的中间表示，并最终转化为BPMN等标准业务流程建模语言。数据集特别设计了条件更新、删除和创建等多样化场景，为流程自动化研究提供了丰富的实验素材。

解决学术问题

Flow-Bench有效解决了业务流程自动化领域的核心学术问题。传统方法在自然语言到流程模型的转换中存在语义鸿沟，该数据集通过结构化测试案例和Python语法子集的中间表示，建立了可量化的评估基准。它为研究者提供了验证模型在流程元素识别、上下文理解、逻辑结构保持等方面性能的工具，显著推进了对话式流程生成技术的标准化进程。数据集填补了自然语言交互与复杂企业级工作流生成之间的研究空白。

衍生相关工作

基于Flow-Bench的创新研究正在多个方向展开。经典工作包括对话式流程生成模型的性能基准测试框架构建，以及基于Python中间表示的跨平台流程转换器开发。该数据集还启发了对LLM在特定领域微调策略的研究，如流程元素识别精度的提升方法。部分衍生工作聚焦于扩展测试案例库，增加多轮对话上下文保持等复杂场景，持续推动 conversational process automation 领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

Flow-Bench

Flow-Bench 数据集概述

数据集简介

数据集内容

示例

相关资源

贡献者