AAW-Zoo

Name: AAW-Zoo
Creator: 富士通欧洲研究院，英国
Published: 2025-10-29 23:17:31
License: 暂无描述

arXiv2025-10-29 更新2025-10-31 收录

下载链接：

https://github.com/FujitsuResearch/CAIR.git

下载链接

链接失效反馈

官方服务：

资源简介：

AAW-Zoo数据集是富士通欧洲研究院创建的，包含30个不同的AAW用例，这些用例来自三种常见架构，共有230个独特的功能。该数据集由AAW-Zoo-Generator生成，用于为输入的用例描述创建AAW。

The AAW-Zoo dataset was created by Fujitsu European Research Laboratories. It includes 30 distinct AAW use cases derived from three common architectures, with a total of 230 unique features. Generated by the AAW-Zoo-Generator, this dataset is designed to create AAW based on input use case descriptions.

提供机构：

富士通欧洲研究院，英国

创建时间：

2025-10-29

搜集汇总

数据集介绍

构建方式

在智能体化人工智能工作流研究领域，AAW-Zoo数据集的构建采用了创新的自动化生成范式。该数据集通过专门设计的AAW-Zoo-Generator工具链实现系统化构建，该生成器基于LangGraph框架将工作流创建任务分解为多个专业化组件。具体流程包括用户需求分析、工作流蓝图设计、功能定义与代码生成三个阶段，每个阶段通过独立的LLM调用节点完成特定子任务，并通过监督组件进行质量验证与迭代优化，最终生成包含完整元数据和查询样本的标准化AAW实例。

特点

AAW-Zoo数据集在智能体工作流研究领域展现出显著的系统性与多样性特征。该数据集涵盖30个不同应用场景的工作流实例，均匀分布在顺序型、协调器型和路由型三种典型架构中，共计包含230个独立功能模块。每个工作流实例均配备完整的元数据描述，包括代理角色定义、功能流程图、代表性查询集合及毒性测试样本。特别值得注意的是，数据集通过严格的验证机制确保所有工作流对输入查询都能产生语义相关的响应，且不同架构的工作流在代理激活模式和任务执行逻辑上保持明显差异性，为多维度研究提供了丰富样本基础。

使用方法

该数据集在智能体工作流影响分析研究中具有明确的应用路径。研究人员可通过加载数据集提供的标准化工作流代码和元数据文件，快速复现CAIR方法的评估实验。具体操作包括解析工作流架构定义、执行代表性查询以获取代理激活序列、运行反事实分析算法计算影响分数等步骤。数据集配套的150个扩展查询和毒性测试样本支持模型鲁棒性验证，而详细的代理提示词和功能描述则为理解工作流内部机制提供必要上下文。这种结构化设计使得数据集既能用于方法验证，又能支撑新型分析技术的开发探索。

背景与挑战

背景概述

AAW-Zoo数据集由富士通欧洲研究院于2025年创建，旨在填补智能体化人工智能工作流领域开源数据的空白。该数据集聚焦于多智能体系统的协同机制研究，通过生成式大语言模型链构建了涵盖30种应用场景的230项功能实例，覆盖序列式、编排式与路由式三类主流架构。其核心研究在于揭示智能体对工作流最终输出的影响程度，为提升系统可解释性与安全性提供关键数据支撑，推动了智能体工作流分析从结构评估向动态行为研究的范式转变。

当前挑战

该数据集需解决智能体影响力量化这一核心问题，其挑战在于传统图论方法仅能静态分析系统架构，无法捕捉运行时智能体间的动态交互。构建过程中面临三大挑战：一是需通过对抗性生成技术创建具有语义一致性的反事实智能体输出；二是需设计跨架构的统一评估框架以兼容不同工作流模式；三是需在保持生成多样性的同时确保数万条查询数据的功能覆盖完整性与毒性标注准确性。

常用场景

经典使用场景

在智能体化人工智能工作流研究领域，AAW-Zoo数据集作为首个专门针对多智能体系统评估的基准数据集，其最经典的使用场景体现在对CAIR等影响力排序算法的系统性验证。该数据集通过涵盖30种不同用例和230种功能变体，为研究人员提供了标准化测试平台，能够全面评估智能体在工作流中对最终输出的贡献程度。特别是在分析智能体间协作模式和工作流动态特性时，数据集提供的多样化架构样本成为不可或缺的研究基础。

实际应用

在实际应用层面，AAW-Zoo数据集已成为企业级AI系统开发的重要工具。基于该数据集训练的智能体影响力评估模型，可显著提升工作流系统的运行效率，如在毒性防护场景中实现27%的延迟降低。数据集支持的多架构测试能力，使其能够适配从简单序列流程到复杂路由系统的各类生产环境，为实际部署中的资源分配和风险控制提供决策依据。

衍生相关工作

该数据集的发布催生了多个重要研究方向的发展，其中最具代表性的是基于反事实分析的工作流解释性研究。后续工作通过扩展数据集的评估维度，开发了面向混合架构的智能体行为分析框架。同时，数据集支撑的基准测试方法已被广泛应用于智能体协作优化、工作流容错机制设计等领域，形成了以可解释性为核心的多智能体系统研究新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集