five

EntCollabBench

收藏
Hugging Face2026-05-13 更新2026-05-14 收录
下载链接:
https://huggingface.co/datasets/Kirito-Lab/EntCollabBench
下载链接
链接失效反馈
官方服务:
资源简介:
EntCollabBench是一个用于评估企业导向多智能体协作的基准数据集,专注于现实工作场所中的任务执行场景。该数据集模拟企业环境,具有角色分离、服务边界、审批工作流和可观察的副作用等特点。它包含四个任务文件和两个支持性资源归档文件,总计300个任务样本,其中200个是MCP导向任务,100个是审批导向任务。任务样本涵盖单任务、多步骤协作、审批决策和多子任务协调等类型。数据集支持多智能体任务分解与委派、结构化企业环境中的工具使用、跨角色协作、基于本地政策文档的审批推理、智能体工作流评估以及端到端操作成功基准测试等研究方向。数据字段包括任务标识符、描述、指令、智能体分配、子任务列表、参考操作和状态变化规范等。基准测试环境涉及多个专业智能体角色和模拟企业系统。

EntCollabBench is a benchmark dataset for evaluating enterprise-oriented multi-agent collaboration, focusing on task execution scenarios in real workplaces. It simulates enterprise environments, featuring role separation, service boundaries, approval workflows, and observable side effects. The dataset contains four task files and two supporting resource archive files, totaling 300 task samples, among which 200 are MCP-oriented tasks and 100 are approval-oriented tasks. The task samples cover categories such as single-task execution, multi-step collaboration, approval decision-making, and multi-subtask coordination. This dataset supports multiple research directions, including multi-agent task decomposition and delegation, tool utilization in structured enterprise environments, cross-role collaboration, approval reasoning based on local policy documents, agent workflow evaluation, and end-to-end operational success benchmarking. The data fields include task identifier, description, instructions, agent assignment, subtask list, reference operations, and state change specifications, among others. The benchmark environment involves multiple professional agent roles and simulated enterprise systems.
创建时间:
2026-05-09
原始信息汇总

EntCollabBench 数据集概述

数据集简介

EntCollabBench 是一个面向企业级多智能体协作的基准测试数据集,模拟真实工作场景中的任务执行。在该场景中,一个入门级智能体需要调用工具、与企业系统交互,并在必要时将子任务委派给专门的同级智能体,以完成用户请求。

数据集构成

数据集包含 300 个任务,分为四个任务文件和两个支持资源包:

配置文件 任务文件 数量 说明
mcp_tasks mcp_tasks_160.json 160 面向企业 MCP 工具使用的单任务样本
mcp_multi_tasks mcp_multi_tasks_40.json 40 多步骤/多子任务协作样本
approval_tasks approval_tasks_80.json 80 基于文档的审批决策任务
approval_multi_tasks approval_multi_task_20.json 20 多子任务审批与协调任务

任务类型分布:

  • 200 个 MCP 导向任务
  • 100 个审批导向任务

支持资源包:

  • seed.zip:用于初始化模拟企业后端服务的种子数据
  • local_data.zip:审批智能体使用的本地审批文档和政策材料(包括财务、法律、采购等政策)

数据字段

通用字段:

  • task_id:任务批次的唯一标识符
  • description:批次的自然语言描述(可选)
  • task:单任务样本的任务指令
  • target_agent:单任务样本的初始智能体
  • sub_task_list:多任务样本中的子任务列表
  • sub_task_id:批次内子任务的唯一标识符
  • user_prompt:子任务的用户指令
  • beginning_agent:分配给子任务的初始智能体
  • ground_truth:结构化参考操作或预期的工具使用路径(可选)
  • state_export:评估企业服务状态变化的规范(可选)

字段别名兼容性:

  • taskuser_prompt
  • target_agentbegin_agentbeginning_agent
  • sub_task_listtask_list

智能体角色

基准测试环境使用以下专门的企业智能体角色,每个角色具有特定的工具和责任边界:

  • it_service_desk_l1(IT 服务台)
  • it_change_engineer(IT 变更工程师)
  • hr_service_specialist(人力资源专家)
  • customer_support_specialist(客户支持专家)
  • knowledge_base_specialist(知识库专家)
  • collaboration_ops_specialist(协作运营专家)
  • developer_engineer(开发工程师)
  • qa_test_engineer(QA 测试工程师)
  • finance_approval_specialist(财务审批专家)
  • legal_approval_specialist(法律审批专家)
  • procurement_approval_specialist(采购审批专家)

企业服务领域

任务可能涉及以下模拟企业系统:

  • calendar(日历)
  • csm(客户服务管理)
  • drive(云盘)
  • email(邮件)
  • gitea(代码仓库)
  • hr(人力资源)
  • itsm(IT 服务管理)
  • teams(团队协作)

审批任务额外依赖 local_data.zip 提供的本地政策与提交文档。

支持的科研用途

该数据集适用于以下研究方向:

  • 多智能体任务分解与委派
  • 结构化企业环境中的工具使用
  • 访问约束下的跨角色协作
  • 基于本地政策文档的审批推理
  • 基于轨迹的智能体工作流评估
  • 端到端运营成功的基准测试(不仅限于最终文本质量)
搜集汇总
数据集介绍
main_image_url
构建方式
EntCollabBench是一个专为评估面向企业的多智能体协作能力而设计的基准测试数据集。其构建方式独具匠心,通过模拟真实工作场所中的任务执行场景,构建了一套包含角色分离、服务边界、审批工作流及可观测副作用的企业环境。数据集共包含300个任务样本,细分为两大核心类别:200个面向MCP工具使用的任务和100个以审批为导向的任务。这些任务被精心组织在四个JSON文件中,其中`mcp_tasks_160.json`与`mcp_multi_tasks_40.json`侧重于单步与多步MCP工具调用,而`approval_tasks_80.json`与`approval_multi_task_20.json`则聚焦于基于本地文档的审批决策与协同。此外,还配套提供了`seed.zip`和`local_data.zip`资源包,用于初始化模拟企业服务及提供审批所需的政策文件,从而确保基准环境的可复现性。
特点
该数据集最显著的特点在于其高度的企业模拟真实性与任务结构化设计。它明确了11种专业化智能体角色(如IT服务台、财务审批专家等),每种角色都拥有独特的工具与职责边界,精准映射了企业组织架构的复杂性。任务被精心封装为包含`task_id`、`user_prompt`、`target_agent`及`ground_truth`等标准字段的结构化样本,不仅保留了详细的工具调用路径作为参考轨迹,还通过`state_export`字段支持对企业服务状态变化的评估,从而实现了对智能体工作流端到端成功率的量化衡量,而非仅关注最终文本质量。这种设计使其成为研究多智能体任务分解、角色间协作与审批推理等前沿课题的理想平台。
使用方法
使用EntCollabBench进行评测非常直接且灵活,主要基于Python的`json`库加载任务文件即可。研究者可以首先通过`json.load()`函数读取如`mcp_tasks_160.json`等文件,获取任务列表。每个任务样本中包含了明确的`user_prompt`指令和`target_agent`(或`beginning_agent`)初始智能体指定。为了完整复现交互环境,需要解压并部署`seed.zip`中的种子数据以初始化后台服务。在评估时,模型或智能体系统需要根据任务描述,在模拟的企业环境中调用相应工具、与特定角色智能体协作或提交审批请求,并最终将其执行轨迹与数据集提供的`ground_truth`参考路径进行对比,从而衡量其在结构化企业工作流中的协作与工具使用能力。
背景与挑战
背景概述
EntCollabBench是由Tao Yu、Hao Wang等研究者在2026年构建的一个面向企业级多智能体协作的基准评测数据集。随着大型语言模型在自动化工作流中的广泛应用,如何在模拟企业环境中评估智能体系统的角色分工、工具调用与审批协同能力成为关键研究问题。该数据集包含300个精心设计的任务,聚焦于MCP工具使用与审批决策两大核心场景,为多智能体任务分解、跨角色协作及轨迹评估提供了标准化测试平台。其发布填补了现有基准在企业真实工作流与角色专业化方面的空白,对推动智能体系统从单一全能型向角色协作型转变具有重要影响。
当前挑战
该数据集所解决的领域挑战在于传统评测过度关注最终文本质量而忽视企业级操作流程的完整性与合规性,例如跨部门审批中的策略推理、资源受限环境下的任务委派与状态追踪。构建过程中面临的挑战包括模拟企业服务域(如ITSM、HR、合规审批)的复杂交互逻辑,生成兼具真实性与多样性的审批文档和政策材料,以及设计包含多步骤、多子任务协同的异构评测样本。此外,确保不同智能体角色在工具边界与责任分离约束下的行为可复现,同时兼顾任务难度层次与评估基准的稳健性,亦是该数据集建设的关键难点。
常用场景
经典使用场景
在智能体系统的研究浪潮中,企业级多智能体协作一直缺乏标准化的评估基准。EntCollabBench正是为此而生,其经典使用场景聚焦于评估入口智能体在模拟企业环境中的任务执行能力。研究者可借助该基准,设计并测试一个智能体如何通过调用工具、操作如日历、电子邮件或IT服务管理等企业系统,以及在遇到复杂需求时,向具备特定角色(如人事专员、财务审批员)的同伴智能体进行子任务委派,从而完成用户的真实工作请求。这为多智能体系统的任务分解与协作策略提供了统一且可复现的验证平台。
衍生相关工作
围绕EntCollabBench,学术界已衍生出一系列有价值的研究工作。典型代表包括基于该基准提出的“角色专用型多智能体协作”框架,其核心论文《Beyond the All-in-One Agent: Benchmarking Role-Specialized Multi-Agent Collaboration in Enterprise Workflows》已在arXiv上发表(Yu等, 2026, arXiv:2605.08761)。此外,该数据集催生了针对审批智能体的政策推理增强研究、基于轨迹评估的任务分解算法优化,以及用于多智能体系统鲁棒性测试的对抗样本生成方法。这些工作共同勾勒出企业级智能体协作研究的前沿图景。
数据集最近研究
最新研究方向
EntCollabBench聚焦于企业级多智能体协作的基准评测,最新研究方向围绕角色专业化与跨系统协同展开。该数据集模拟真实办公场景中的审批流程、工具调用与任务分解,首次将权限边界、政策文档推理和状态追踪纳入Agent评估框架。伴随大型语言模型在企业自动化中的深入应用,EntCollabBench回应了从“全能Agent”向“角色分工协作”范式转变的迫切需求,为衡量多Agent系统在结构化环境中的操作成功率与轨迹质量提供了标准化参照。其引入的审批环节与本地政策文档依赖,使得研究不再停留于简单的自然语言生成,而是延展至约束条件下的决策推理与跨部门协作效率,对智能工作流编排与合规性验证等领域具有里程碑式意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作