n8n-toolkit-combined

Hugging Face2026-01-05 更新2026-01-06 收录

流程自动化

多模态训练

数据链接：

https://huggingface.co/datasets/DavidrPatton/n8n-toolkit-combined 数据链接链接失效反馈

官方服务：

资源简介：

n8n-Toolkit-Combined数据集是一个统一且即用的数据集，结合了所有n8n工作流数据和Qwen3微调知识，采用'messages'格式，专为Qwen3-VL训练优化。数据集包含16,178个示例，其中2,274个视觉示例带有图像和工作流JSON，90个Qwen3微调示例包含全面知识。所有数据均采用统一的'messages'格式，便于直接用于训练。数据集还提供了详细的统计信息、使用方法、数据模式、数据质量评估以及训练建议。

创建时间：

2026-01-05

原始信息汇总

n8n-Toolkit-Combined 数据集概述

数据集基本信息

数据集名称: n8n-Toolkit-Combined
维护者: David Patton
托管地址: https://huggingface.co/datasets/DavidrPatton/n8n-toolkit-combined
许可证: MIT License
任务类别: 文本生成、视觉问答、图像文本到文本
标签: n8n、workflows、automation、qwen3、fine-tuning、vision-language、multimodal、combined
数据规模: 10K<n<100K
最新更新: 2025-01-05

数据集摘要

一个统一、即用的数据集，将所有n8n工作流数据和Qwen3微调知识合并为单一的messages格式，专为Qwen3-VL训练优化。

核心内容

总样本数: 16,178个对话格式示例
视觉样本: 2,274个带图像和工作流JSON的示例
Qwen3微调知识样本: 90个综合知识示例
数据格式: 所有数据均为可直接用于训练的messages格式

数据构成与统计

子集分布

子集	示例数量	描述
`sharegpt`	10,827	对话式n8n工作流数据
`thinking`	2,987	思维链推理示例
`vision`	2,274	图像 + JSON对（全部包含图像）
`default`	90	Qwen3微调知识
总计	16,178	统一格式的所有示例

视觉示例详情

图像数量: 2,274个工作流截图
图像格式: PNG，RGB模式，1878x983像素
JSON覆盖率: 100%（所有图像均有匹配的工作流JSON）
格式增强: 采用结构化提示以优化训练

数据结构与特征

统一模式

所有示例均使用与Qwen3-VL及其他指令调优模型兼容的标准messages格式。

完整特征列表

python { "messages": [{"role": "string", "content": "string"}], # 必需 "source_subset": "string", # default, sharegpt, thinking, vision "image": Image | None, # 视觉示例的PIL图像 "source_url": "string", "source_title": "string", "topic": "string", "scraped_at": "string", "id": "string", # 用于视觉示例 "description": "string", # 用于视觉示例 "workflow_json": "string", # 用于视觉示例 "node_count": int, # 用于视觉示例 "source": "string", "category": "string", "domain": "string", "complexity": "string", "instruction": "string", "input": "string", "output": "string", "prompt": "string", # 用于thinking示例 "json": "string", # 用于thinking示例 "thinking": "string", # 用于thinking示例 }

数据质量

质量增强

错误条目移除: 所有403、401及"Error scraping"条目已被过滤
视觉示例增强: 采用结构化提示以优化图像-文本对
100%图像+JSON覆盖率: 每个视觉示例均包含图像和工作流JSON
统一模式: 所有子集已转换为一致的messages格式
元数据保留: 所有原始字段均被保留以支持筛选

质量指标

视觉示例: 2,274个带图像的示例（覆盖率100%）
图像+JSON对: 2,274个（覆盖率100%）
Qwen3示例: 90个综合知识条目
错误条目: 0个（已全部移除）

使用说明

加载数据集

python from datasets import load_dataset dataset = load_dataset("DavidrPatton/n8n-toolkit-combined", token="your_token")

按子集筛选

python

获取仅视觉示例

vision_examples = [ex for ex in train if ex[source_subset] == vision]

获取Qwen3微调示例

qwen3_examples = [ex for ex in train if ex[source_subset] == default and qwen3 in ex.get(topic, ).lower()]

访问图像

python for example in train: if example[source_subset] == vision and example[image] is not None: image = example[image] # PIL Image对象 workflow_json = example[workflow_json] # JSON字符串

训练建议

针对Qwen3-VL训练

筛选source_subset == vision以获取视觉-语言示例
每个示例均包含请求工作流分析的结构化提示
图像质量高且格式正确
所有工作流JSON均完整且经过验证

针对指令调优

使用所有示例进行通用指令调优
按source_subset筛选以满足特定训练需求
default子集中的Qwen3知识可用于微调专业知识

针对推理任务

筛选source_subset == thinking以获取思维链示例
示例包含逐步推理和JSON输出

重要注意事项

图像查看器限制: HuggingFace数据集查看器对图像显示"Not supported with pagination yet"，这仅是查看器限制，图像在数据集中完全存储且可通过代码访问。
图像查看方法:
1. 使用原始的n8n-Toolkit视觉子集（所有图像可见）
2. 通过代码访问（图像完全可访问）
3. 筛选仅视觉示例

与原始数据集的比较

特性	n8n-Toolkit	n8n-toolkit-combined
格式	多种模式	统一的`messages`格式
子集	4个独立子集	单个`train`分割
图像	在查看器中可见	查看器有限制（但可访问）
使用	按子集加载	一次性加载全部
训练	需要转换	可直接使用

引用

bibtex @dataset{n8n_toolkit_combined_2025, title={n8n-Toolkit-Combined: Unified Dataset for n8n Workflow Understanding and Qwen3 Fine-Tuning}, author={Patton, David}, year={2025}, url={https://huggingface.co/datasets/DavidrPatton/n8n-toolkit-combined} }

相关数据集

DavidrPatton/n8n-Toolkit: https://huggingface.co/datasets/DavidrPatton/n8n-Toolkit（包含独立子集的原始数据集）

搜集汇总

数据集介绍

构建方式

在自动化工作流与多模态人工智能融合的背景下，n8n-toolkit-combined数据集通过系统性的整合与重构流程构建而成。其核心方法是将原始n8n-Toolkit中四个独立的子集——包括对话式工作流数据、思维链推理示例、视觉图像-工作流对以及Qwen3微调知识——统一转换为标准化的`messages`对话格式。构建过程中，所有错误条目均被严格过滤，并确保了视觉示例中图像与对应工作流JSON的完整配对覆盖，最终形成一个包含16,178个示例、可直接用于模型训练的单一数据集。

特点

该数据集最显著的特征在于其高度统一与多模态融合的架构。所有示例均采用与Qwen3-VL等指令调优模型兼容的`messages`格式，实现了数据结构的一致性。尤为突出的是，数据集包含了2,274个高质量的视觉-语言对，每个示例均配有工作流程截图与完整的JSON定义，形成了紧密的图文对应关系。此外，数据集还整合了90个涵盖Qwen3全系列模型变体、微调技术与研究文献的综合性知识条目，为模型提供了跨领域的专业知识支撑。

使用方法

针对多模态大语言模型的训练需求，该数据集提供了便捷的直接加载方式。使用者可通过Hugging Face `datasets`库加载完整数据集，并利用`source_subset`元数据字段灵活筛选特定类型的示例，例如专为视觉语言训练提取`vision`子集，或为获取微调知识筛选`default`子集中的Qwen3相关内容。对于视觉示例，代码可直接访问PIL格式的图像对象与关联的工作流JSON字符串，无缝适配Qwen3-VL等模型的训练流程，实现了开箱即用的多模态指令调优与工作流理解任务支持。

背景与挑战

背景概述

n8n-toolkit-combined数据集由David Patton于2025年构建，旨在为自动化工作流理解与多模态大模型微调提供统一的数据资源。该数据集整合了原始n8n-Toolkit中多个子集，涵盖对话、思维链推理、视觉问答及Qwen3模型知识，共计16,178个示例，其中包含2,274个带有工作流截图与JSON对的视觉样本。其核心研究问题聚焦于如何将异构的工作流数据转化为标准化的对话格式，以支持如Qwen3-VL等视觉语言模型的高效训练，推动自动化流程分析与多模态任务理解的交叉领域发展。

当前挑战

该数据集致力于解决自动化工作流分析与多模态任务执行的复杂挑战，其核心问题在于如何让模型从视觉截图与结构化JSON中准确解析并生成可执行的工作流逻辑。构建过程中的挑战主要体现在数据整合与质量保障层面：首先，需将原始分散的多个子集统一至标准的messages对话格式，并确保视觉样本中图像与JSON的完全配对；其次，必须剔除无效条目并增强提示词结构，以提升模型训练的可靠性与泛化能力。

常用场景

经典使用场景

在自动化工作流与多模态人工智能的交叉领域，n8n-toolkit-combined数据集为视觉语言模型的指令微调提供了典范场景。该数据集将对话、思维链、视觉示例与Qwen3专业知识统一于标准消息格式，特别适用于训练模型理解和生成基于图像的工作流描述。其核心应用在于利用2274个高质量工作流截图与对应JSON的配对数据，引导模型从视觉界面中解析并重构复杂的自动化逻辑，实现了从像素到结构化代码的端到端学习。

实际应用

在实际产业环境中，该数据集能够赋能智能流程自动化平台的构建。例如，企业可利用经此数据集训练的模型，自动分析用户提交的界面截图，并生成可执行的n8n工作流配置，极大降低自动化流程的设计门槛。在技术支持场景中，模型能根据故障系统的视觉呈现，推理出修复工作流。此外，数据集内嵌的Qwen3微调知识可直接指导开发者优化模型部署，实现从研发到生产的无缝衔接。

衍生相关工作

围绕该数据集，已催生了一系列聚焦于工作流理解与生成的创新研究。例如，基于其视觉示例的工作流截图到代码的转换模型，提升了自动化脚本的生成准确率。利用其思维链数据的研究，增强了模型对多步骤自动化任务的推理可解释性。同时，整合其Qwen3知识的微调框架比较研究，为大规模视觉语言模型的高效适配提供了基准。这些工作共同推动了智能体在业务流程自动化中实际效用的边界。

以上内容由遇见数据集搜集并总结生成