10,000 long-horizon multi-agent workflows

Name: 10,000 long-horizon multi-agent workflows
Creator: 武汉大学计算机科学学院
Published: 2025-05-13 19:15:19
License: 暂无描述

arXiv2025-05-13 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.08446v1

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含10,000条长时多智能体协作流程，旨在为多智能体系统中的长链协作研究提供基础。数据集由基于AaaS-AN的多智能体系统生成，涵盖了智能体群组、机器人流程自动化（RPA）工作流和MCP服务器等多个方面。该数据集的发布将为未来研究多智能体协作提供宝贵资源，并有助于解决多智能体系统中的协作挑战。

This dataset contains 10,000 long-duration multi-agent collaboration workflows, aiming to provide a foundational resource for research on long-chain collaboration in multi-agent systems. This dataset is generated by a multi-agent system based on AaaS-AN, covering multiple aspects including agent groups, Robotic Process Automation (RPA) workflows, and MCP servers. The release of this dataset will provide a valuable resource for future research on multi-agent collaboration, and help address the collaboration challenges in multi-agent systems.

提供机构：

武汉大学计算机科学学院

创建时间：

2025-05-13

搜集汇总

数据集介绍

构建方式

该数据集构建于AaaS-AN（基于Agent Network的Agent-as-a-Service）框架之上，通过动态Agent Network将智能体及智能体组建模为网络顶点，并依据任务与角色依赖关系实现自组织协作。研究团队整合了超过100个智能体服务（包括智能体组、RPA工作流及MCP服务器），采用Role-Goal-Process-Service (RGPS) 标准对智能体角色、目标导向的智能体组及协作流程进行结构化建模。通过记录10,000条长链多智能体协作流，数据集完整捕获了从任务分发、分布式执行到结果聚合的全生命周期数据。

特点

数据集的核心特点在于其长视野（long-horizon）协作范式和结构化上下文表示。每个工作流包含多智能体在数学推理、代码生成等复杂任务中的动态交互轨迹，其中协作路径通过HARD/SOFT/EXT三类路由机制实现灵活编排。数据样本涵盖任务状态（New/Running/Success/Fail）、协议类型（Agent/RPA）及服务贡献度等多维度元数据，并呈现智能体服务的典型长尾分布特征。相较于传统多智能体数据集，其突出优势在于融合了服务化智能体的标准化输入输出参数与执行图谱（Execution Graph），为研究长链协作中的上下文传递与错误传播提供了细粒度分析基础。

使用方法

该数据集适用于多智能体系统在长链任务协作中的算法验证与场景复现研究。使用者可通过解析执行图谱还原智能体间的结构化交互序列，分析路由策略对任务成功率的影响；或基于协议类型（Agent/RPA）分离子任务流，评估异构智能体协同效率。针对服务化智能体研究，可提取顶点贡献度指标优化服务调度策略。数据集与AaaS-AN框架兼容，支持通过Service Scheduler接口重放工作流，或注入自定义智能体服务观察网络动态重构过程。为保障实验可复现性，建议配合论文提供的质量评估标准（如语义一致性评分模板）进行性能度量。

背景与挑战

背景概述

由武汉大学计算机学院的研究团队于2025年提出的'10,000 long-horizon multi-agent workflows'数据集，标志着多智能体系统研究进入服务化协作新阶段。该数据集作为AaaS-AN（基于智能体网络的服务化范式）的核心组成部分，旨在解决复杂长链任务中智能体动态协作的标准化问题。研究团队通过RGPS（角色-目标-流程-服务）元模型框架，构建了包含100+智能体服务的大规模系统，其创新性地将智能体建模为网络顶点，通过动态路由机制实现自组织协作。该数据集为分布式人工智能、服务计算与业务流程自动化等领域的交叉研究提供了首个标准化长周期协作基准。

当前挑战

在领域问题层面，数据集需应对三大核心挑战：长链任务中上下文传递的累积误差问题、异构智能体间的语义对齐难题，以及动态环境下协作流程的稳定性控制。构建过程中面临双重技术瓶颈：一是万级工作流的标注需要突破传统单智能体标注范式，开发基于群体智能的分布式标注协议；二是服务化智能体的结构化表征要求建立统一的输入输出约束框架，以平衡LLM的创造力与流程可控性。实验数据表明，失败任务的平均链长比成功任务长24%，揭示长链依赖中的误差传播仍是亟待解决的关键问题。

常用场景

经典使用场景

在人工智能领域，多智能体系统（MAS）的协作能力日益成为研究热点。10,000 long-horizon multi-agent workflows数据集为研究者提供了一个丰富的实验平台，特别适用于长链任务和多智能体协作的研究。该数据集包含了大量智能体服务和工作流程，能够模拟真实场景中的复杂任务执行过程，为验证多智能体系统的协作效率和任务完成能力提供了重要支持。

衍生相关工作

该数据集衍生了一系列经典研究工作，特别是在多智能体协作和长链任务优化方面。例如，基于该数据集的AaaS-AN框架提出了动态Agent Network和服务导向的智能体协作模式，显著提升了多智能体系统的任务完成率和效率。此外，该数据集还被用于验证MetaGPT、AutoGen等先进多智能体框架的性能，推动了多智能体系统研究的进一步发展。

数据集最近研究