Chat2Workflow

Name: Chat2Workflow
Creator: 浙江大学; 腾讯
Published: 2026-04-22 00:49:11
License: 暂无描述

arXiv2026-04-22 更新2026-04-23 收录

下载链接：

https://github.com/zjunlp/Chat2Workflow

下载链接

链接失效反馈

官方服务：

资源简介：

Chat2Workflow是由浙江大学和腾讯联合构建的工业级视觉工作流生成基准数据集，包含273个真实业务场景下的多轮交互实例，覆盖AIGC、科研、文档等6大领域。该数据集通过逆向工程从Dify和Coze平台的生产级配置中提取，每个实例包含自然语言指令、结构化JSON工作流及3个测试用例，支持直接转换为可部署的YAML文件。数据集旨在评估语言模型从自然语言生成可执行工作流的能力，解决工业自动化中人工构建工作流成本高、易出错的核心痛点。

Chat2Workflow is an industrial-grade visual workflow generation benchmark dataset jointly developed by Zhejiang University and Tencent. It comprises 273 multi-turn interaction instances from real-world business scenarios, covering 6 major domains including AIGC, scientific research, and document-related scenarios. This dataset is extracted from production-grade configurations on the Dify and Coze platforms through reverse engineering. Each instance includes natural language instructions, a structured JSON-based workflow, and three test cases, and supports direct conversion into deployable YAML files. The dataset aims to evaluate the capability of large language models (LLMs) to generate executable workflows from natural language, addressing the core pain points of high construction costs and error-prone manual workflow development in industrial automation.

提供机构：

浙江大学; 腾讯

创建时间：

2026-04-22

原始信息汇总

Chat2Workflow 数据集概述

数据集基本信息

数据集名称：Chat2Workflow
数据集地址：https://github.com/zjunlp/Chat2Workflow
相关论文：Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language
论文链接：https://arxiv.org/abs/2604.19667
Hugging Face 数据链接：https://huggingface.co/datasets/zjunlp/Chat2Workflow-Evaluation

数据集内容与结构

数据集包含用于生成和评估可执行可视化工作流的指令与检查项。

主要目录

.agents/skills/chat2workflow/：用于智能体工作流生成的技能文件。
case_files/：测试用例所需的所有文件。
dataset/：工作流生成指令和评估检查项。
experiment_run_example/：单次实验运行结果的示例。
assets/：README.md 中使用的图片。
nodes/：每个节点的功能逻辑。
prompts/：系统提示词和评估提示词。
yaml/：生成的 Dify 工作流 YAML 文件（可从 Hugging Face 数据集获取）。

数据集用途与功能

核心目标：构建一个使用自然语言生成可执行可视化工作流的基准测试。
支持模式：提供零样本生成模式和智能体生成模式。
目标平台：支持生成适用于 Dify 或 Coze 平台的工作流配置文件。
评估流程：包含通过阶段和解析阶段的两步评估流程。

数据获取与使用

生成的 Dify 工作流 YAML 文件可通过 Hugging Face 数据集获取：https://huggingface.co/datasets/zjunlp/Chat2Workflow-Evaluation。
数据集包含用于工作流生成和评估的提示词文件。
提供交互式演示和命令行两种生成方式。

搜集汇总

数据集介绍

构建方式

在工业级智能体工作流自动化需求日益增长的背景下，Chat2Workflow 数据集的构建旨在填补自然语言到可执行视觉工作流生成领域的评估空白。该数据集源自真实业务场景，通过系统化采集 Dify 与 Coze 等主流工作流平台的现成配置，并基于这些生产级工作流逆向工程出多轮对话指令。为确保数据的连贯性与实用性，研究团队将同一任务上下文中的工作流进行聚类，将每个工作流改写为一轮指令，并将整体整合为一个多轮交互任务，最终形成涵盖六大领域（AIGC、研究、文档、教育、企业与开发）的27个任务，共计79条多轮指令，每条指令均配备三个测试用例以支持端到端评估。

使用方法

为有效利用 Chat2Workflow 基准，研究者通常遵循标准化的多轮交互生成与评估流程。给定当前轮次的自然语言任务指令及历史对话记录，语言模型需生成包含节点选择、设计原则与结构化 JSON 工作流的思维链输出。生成的 JSON 经规则转换为平台可执行的 YAML 文件后，导入至 Dify 等平台进行实际运行。评估时，首先依据格式规范与预设的真实节点列表检查通过率；随后，在平台上执行工作流并比对输出结果，计算解决率。该流程支持对各类大语言模型在工作流生成任务上的格式合规性、逻辑正确性及实际问题解决能力进行系统化、可复现的量化分析。

背景与挑战

背景概述

Chat2Workflow数据集由浙江大学与腾讯的研究团队于2026年提出，旨在系统评估大型语言模型从自然语言生成可执行视觉工作流的能力。该数据集聚焦于工业级智能体工作流自动化这一核心研究问题，其创建源于当前实际部署中工作流高度依赖人工构建的瓶颈，即开发成本高昂、耗时且易错。Chat2Workflow从真实业务场景中收集并逆向工程了涵盖AIGC、研究、文档、教育、企业及开发六大领域的多轮交互任务，共计273个实例，每个生成的工作流均可直接转换并部署至Dify、Coze等主流平台。该数据集为推进工业级自动化提供了首个基准测试床，显著推动了智能体工作流生成领域的研究进展。

当前挑战

Chat2Workflow所应对的核心领域挑战在于实现从复杂、隐含的自然语言需求到正确、稳定且可执行工作流的自动生成，这要求模型精准推断控制流、选择合适工具并保持逻辑一致性。构建过程中的具体挑战包括：第一，从真实工业平台收集的工作流需逆向工程为多轮自然语言指令，同时确保指令基于历史对话动态演变，以模拟需求变更场景；第二，为平衡生成复杂性与真实性，需简化高频节点的输入输出接口，并构建高质量节点知识库以支撑模型理解；第三，设计两阶段渐进式评估协议（通过率与解决率），以严格检验工作流格式合法性与实际执行效果，避免评分虚高，这要求开发自动转换与执行验证框架。

常用场景

经典使用场景

在智能体与工作流自动化研究领域，Chat2Workflow数据集为评估大语言模型从自然语言指令生成可执行可视化工作流的能力提供了基准测试平台。该数据集的核心使用场景聚焦于多轮交互式对话中，模型需根据用户不断演化的需求，动态地合成、修改或完善工作流结构。每一轮任务均基于历史对话语境，要求模型不仅理解当前指令的显性目标，还需维系与先前工作流逻辑的一致性，从而模拟真实工业部署中需求频繁变更的挑战。通过对六类领域（AIGC、研究、文档、教育、企业及开发者）任务的系统性评估，该数据集能够全面检验模型在复杂逻辑推断、工具选择与结构化输出生成方面的综合性能。

解决学术问题

Chat2Workflow数据集旨在系统性地探究并解决自动化工作流生成中的关键学术问题。它首要应对的挑战是如何将模糊、隐含的自然语言需求准确映射为具有明确控制流与数据流的可执行工作流结构，这涉及对复杂任务的理解与结构化推理。其次，数据集通过设计多轮交互任务，深入研究了在需求动态变化情境下，模型如何保持工作流的正确性与逻辑一致性，即长程指令跟随与自适应工作流合成问题。这些研究填补了现有工作在过程规范与中间状态可靠性评估方面的空白，为构建稳定、可解释且易于复现的智能体系统提供了重要的理论依据与评估基准。

实际应用

Chat2Workflow数据集紧密对接实际工业场景，其构建直接源于Dify、Coze等主流工作流编排平台的真实业务配置。数据集生成的工作流可经转换后直接部署至这些平台运行，实现了从研究到生产的无缝衔接。在实际应用中，该数据集支撑的自动化工作流生成技术能够显著降低企业级业务流程自动化的开发成本与门槛，使得非技术用户也能通过自然语言描述快速构建可靠的数据处理、内容生成、研究辅助或教育规划等复杂流程。这为智能体技术在金融、教育、文创及企业服务等领域的规模化、可靠化落地提供了关键的技术验证与推进路径。

数据集最近研究