n8n-master-corpus

Hugging Face2026-01-07 更新2026-01-08 收录

下载链接：

https://huggingface.co/datasets/Ker102/n8n-master-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的36,405个独特n8n自动化工作流集合，用于AI训练、研究和社区使用。该数据集结合了通过自定义原型引擎生成的高质量合成工作流和大量清理过的社区模板。数据集包含工作流的JSON格式数据，经过严格的JSON规范化、结构验证、去重和元数据提取等清理过程。

创建时间：

2026-01-07

原始信息汇总

n8n Automation Atlas 数据集概述

数据集基本信息

数据集名称: n8n Automation Atlas: 36,405 n8n Workflows
托管地址: https://huggingface.co/datasets/Ker102/n8n-master-corpus
许可证: Apache 2.0
主要语言: 英语 (en)
任务类别: 文本生成、特征提取
标签: n8n, automation, workflow, low-code, agents, mcp
规模分类: 10K<n<100K

数据内容与规模

总工作流数量: 36,405 个独特的 n8n 自动化工作流
数据格式: JSON / JSON Lines (.jsonl)
数据拆分: 仅包含训练集 (train)
训练集样本数: 36,405
训练集大小: 303,685,422 字节
下载大小: 50,034,765 字节
数据集总大小: 303,685,422 字节

数据来源与构成

合成工作流 (Repository & Synthetic): 约 12,500 个独特的功能性脚本，通过组合原型引擎生成。
社区工作流 (Community): 约 23,900 个独特的社区贡献模板，源自 n8n_workflows_templates_dataset 并经过清理。

数据特征 (Features)

workflow_id: 字符串类型，工作流ID。
workflow_name: 字符串类型，工作流名称。
node_count: 字符串类型，节点数量。
integrations: 字符串类型，集成类型。
category: 字符串类型，类别。
workflow_json: 字符串类型，工作流JSON内容。

方法论与生成引擎

核心方法: 组合原型引擎 (Combinatorial Archetype Engine)
原理:
- 等价分组: 节点按功能分组（如数据库、消息、AI、DevOps）。
- 原型: 已验证的常见自动化模式“骨架”（如“表单到数据库并通知”、“AI摘要器”、“RAG摄取”）。
- 组合扩展: 引擎遍历每个原型的每个有效节点组合，在保持结构完整性的同时扩大输出量。

数据质量与清理过程

对社区工作流部分进行了深度清理：

JSON规范化: 将字符串化的JSON值解析为有效的嵌套对象。
结构验证: 检查每个工作流是否包含 nodes 和 connections。
去重: 基于独特的结构指纹和ID进行去重。
元数据提取: 提取节点计数和集成类型以便于筛选。

用途与说明

该数据集是用于AI训练、研究和社区使用的精选n8n自动化工作流集合。工作流按原样提供，用于研究和开发目的，在生产n8n环境中导入前请务必审查。

搜集汇总

数据集介绍

构建方式

在低代码自动化领域，n8n-master-corpus的构建融合了系统性合成与社区数据清洗的双重路径。其核心采用组合原型引擎，通过将功能节点划分为等效群组，并基于已验证的自动化模式骨架，进行数学上兼容节点的组合扩展，从而生成大量结构有效且多样化的合成工作流。与此同时，从社区模板中采集的数据经过了严格的清洗流程，包括JSON规范化、结构验证、去重以及元数据提取，确保了数据的完整性与可用性。

特点

该数据集以其规模与质量在自动化工作流领域脱颖而出，囊括了超过三万六千个独特且功能完备的n8n工作流实例。其显著特点在于数据来源的二元构成，既包含由算法引擎生成的高保真合成工作流，也整合了经过深度清理的社区贡献模板，二者共同保障了内容的多样性与实践相关性。每个工作流均附有节点数量、集成服务类型等结构化元数据，便于研究者进行高效的筛选与分析，为自动化模式识别与智能体构建提供了丰富的素材。

使用方法

数据集以JSON Lines格式组织，适用于文本生成与特征提取等机器学习任务。使用者可通过配套的本地Web应用界面直观浏览工作流结构，或直接利用原始JSON文件进行程序化处理。在应用于AI模型训练或自动化研究时，建议依据提取的元数据字段进行工作流分类或过滤，以聚焦于特定集成或复杂度的分析。需注意，尽管数据经过清洗，在实际部署前仍建议对工作流逻辑进行审阅以确保其适用性。

背景与挑战

背景概述

在低代码与自动化平台蓬勃发展的时代，n8n-master-corpus数据集应运而生，由研究者Ker102于近期构建并发布。该数据集汇集了36,405个独特的n8n工作流，旨在为人工智能训练、自动化模式研究及社区应用提供高质量的结构化数据。其核心研究问题聚焦于如何系统化地建模与生成复杂的自动化流程，以推动智能体（Agents）与多模态控制协议（MCP）等领域的技术演进。通过结合基于组合原型引擎生成的高质量合成工作流与大量清洗后的社区模板，该数据集为自动化逻辑的理解与生成奠定了重要基础，显著促进了低代码平台中工作流智能分析与生成的研究进展。

当前挑战

该数据集致力于解决自动化工作流智能生成与理解的领域挑战，其核心在于建模复杂、多样且结构异构的节点连接逻辑，并确保生成的工作流具备功能有效性与语义合理性。在构建过程中，研究者面临多重挑战：首先，需要设计数学上严谨的组合原型引擎，以保障节点兼容性与工作流结构完整性；其次，对海量社区模板进行数据清洗与规范化，涉及JSON解析、结构验证与去重等繁琐步骤，以提升数据质量与一致性；此外，还需在保持工作流多样性的同时，避免生成无效或冗余的自动化模式，这对算法设计与工程实现提出了较高要求。

常用场景

经典使用场景

在低代码自动化与工作流生成领域，n8n-master-corpus数据集为研究人员提供了丰富的结构化数据资源。该数据集最经典的使用场景是作为训练和评估自动化工作流生成模型的基准，尤其适用于基于大型语言模型的代码生成任务。通过分析超过36,000个真实与合成的工作流JSON结构，模型能够学习节点连接模式、集成逻辑与自动化语义，进而生成功能完整且语法正确的新工作流。这种应用不仅推动了智能自动化工具的发展，也为低代码平台的智能化提供了核心数据支撑。

解决学术问题

该数据集有效解决了自动化工作流研究中的若干关键学术问题。首先，它提供了大规模、高质量的工作流实例，缓解了该领域公开数据稀缺的困境，使研究工作得以基于真实场景展开。其次，通过组合原型引擎生成的合成数据，确保了工作流结构的多样性与有效性，为模型泛化能力评估奠定了基础。更重要的是，数据集的结构化特性支持对工作流复杂性、节点兼容性及集成模式的形式化分析，促进了自动化规划、程序合成与知识表示等交叉领域的研究进展。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作。在学术方面，研究者利用其训练工作流生成模型，探索基于Transformer的序列到序列架构如何将自然语言指令映射为可执行的工作流JSON。工程领域则出现了工作流相似性检索、自动化模式挖掘以及节点兼容性预测等工具。数据集附带的探索性Web界面本身也是一项衍生应用，展示了如何可视化与交互式浏览大规模工作流库。这些工作共同推动了智能自动化生态的发展，并为后续的Agent工作流、多工具调用等前沿方向奠定了基础。

以上内容由遇见数据集搜集并总结生成