EntCollabBench

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/Kirito-Lab/EntCollabBench

下载链接

链接失效反馈

官方服务：

资源简介：

EntCollabBench是一个用于评估企业导向多智能体协作的基准数据集，专注于现实工作场所中的任务执行场景。该数据集模拟企业环境，具有角色分离、服务边界、审批工作流和可观察的副作用等特点。它包含四个任务文件和两个支持性资源归档文件，总计300个任务样本，其中200个是MCP导向任务，100个是审批导向任务。任务样本涵盖单任务、多步骤协作、审批决策和多子任务协调等类型。数据集支持多智能体任务分解与委派、结构化企业环境中的工具使用、跨角色协作、基于本地政策文档的审批推理、智能体工作流评估以及端到端操作成功基准测试等研究方向。数据字段包括任务标识符、描述、指令、智能体分配、子任务列表、参考操作和状态变化规范等。基准测试环境涉及多个专业智能体角色和模拟企业系统。

EntCollabBench is a benchmark dataset for evaluating enterprise-oriented multi-agent collaboration, focusing on task execution scenarios in real workplaces. It simulates enterprise environments, featuring role separation, service boundaries, approval workflows, and observable side effects. The dataset contains four task files and two supporting resource archive files, totaling 300 task samples, among which 200 are MCP-oriented tasks and 100 are approval-oriented tasks. The task samples cover categories such as single-task execution, multi-step collaboration, approval decision-making, and multi-subtask coordination. This dataset supports multiple research directions, including multi-agent task decomposition and delegation, tool utilization in structured enterprise environments, cross-role collaboration, approval reasoning based on local policy documents, agent workflow evaluation, and end-to-end operational success benchmarking. The data fields include task identifier, description, instructions, agent assignment, subtask list, reference operations, and state change specifications, among others. The benchmark environment involves multiple professional agent roles and simulated enterprise systems.

创建时间：

2026-05-09

原始信息汇总

EntCollabBench 数据集概述

数据集简介

EntCollabBench 是一个面向企业级多智能体协作的基准测试数据集，模拟真实工作场景中的任务执行。在该场景中，一个入门级智能体需要调用工具、与企业系统交互，并在必要时将子任务委派给专门的同级智能体，以完成用户请求。

数据集构成

数据集包含 300 个任务，分为四个任务文件和两个支持资源包：

配置文件	任务文件	数量	说明
`mcp_tasks`	`mcp_tasks_160.json`	160	面向企业 MCP 工具使用的单任务样本
`mcp_multi_tasks`	`mcp_multi_tasks_40.json`	40	多步骤/多子任务协作样本
`approval_tasks`	`approval_tasks_80.json`	80	基于文档的审批决策任务
`approval_multi_tasks`	`approval_multi_task_20.json`	20	多子任务审批与协调任务

任务类型分布：

200 个 MCP 导向任务
100 个审批导向任务

支持资源包：

seed.zip：用于初始化模拟企业后端服务的种子数据
local_data.zip：审批智能体使用的本地审批文档和政策材料（包括财务、法律、采购等政策）

数据字段

通用字段：

task_id：任务批次的唯一标识符
description：批次的自然语言描述（可选）
task：单任务样本的任务指令
target_agent：单任务样本的初始智能体
sub_task_list：多任务样本中的子任务列表
sub_task_id：批次内子任务的唯一标识符
user_prompt：子任务的用户指令
beginning_agent：分配给子任务的初始智能体
ground_truth：结构化参考操作或预期的工具使用路径（可选）
state_export：评估企业服务状态变化的规范（可选）

字段别名兼容性：

task 或 user_prompt
target_agent、begin_agent 或 beginning_agent
sub_task_list 或 task_list

智能体角色

基准测试环境使用以下专门的企业智能体角色，每个角色具有特定的工具和责任边界：

it_service_desk_l1（IT 服务台）
it_change_engineer（IT 变更工程师）
hr_service_specialist（人力资源专家）
customer_support_specialist（客户支持专家）
knowledge_base_specialist（知识库专家）
collaboration_ops_specialist（协作运营专家）
developer_engineer（开发工程师）
qa_test_engineer（QA 测试工程师）
finance_approval_specialist（财务审批专家）
legal_approval_specialist（法律审批专家）
procurement_approval_specialist（采购审批专家）

企业服务领域

任务可能涉及以下模拟企业系统：

calendar（日历）
csm（客户服务管理）
drive（云盘）
email（邮件）
gitea（代码仓库）
hr（人力资源）
itsm（IT 服务管理）
teams（团队协作）

审批任务额外依赖 local_data.zip 提供的本地政策与提交文档。

支持的科研用途

该数据集适用于以下研究方向：

多智能体任务分解与委派
结构化企业环境中的工具使用
访问约束下的跨角色协作
基于本地政策文档的审批推理
基于轨迹的智能体工作流评估
端到端运营成功的基准测试（不仅限于最终文本质量）

搜集汇总

数据集介绍

构建方式

EntCollabBench是一个专为评估面向企业的多智能体协作能力而设计的基准测试数据集。其构建方式独具匠心，通过模拟真实工作场所中的任务执行场景，构建了一套包含角色分离、服务边界、审批工作流及可观测副作用的企业环境。数据集共包含300个任务样本，细分为两大核心类别：200个面向MCP工具使用的任务和100个以审批为导向的任务。这些任务被精心组织在四个JSON文件中，其中`mcp_tasks_160.json`与`mcp_multi_tasks_40.json`侧重于单步与多步MCP工具调用，而`approval_tasks_80.json`与`approval_multi_task_20.json`则聚焦于基于本地文档的审批决策与协同。此外，还配套提供了`seed.zip`和`local_data.zip`资源包，用于初始化模拟企业服务及提供审批所需的政策文件，从而确保基准环境的可复现性。

特点

该数据集最显著的特点在于其高度的企业模拟真实性与任务结构化设计。它明确了11种专业化智能体角色（如IT服务台、财务审批专家等），每种角色都拥有独特的工具与职责边界，精准映射了企业组织架构的复杂性。任务被精心封装为包含`task_id`、`user_prompt`、`target_agent`及`ground_truth`等标准字段的结构化样本，不仅保留了详细的工具调用路径作为参考轨迹，还通过`state_export`字段支持对企业服务状态变化的评估，从而实现了对智能体工作流端到端成功率的量化衡量，而非仅关注最终文本质量。这种设计使其成为研究多智能体任务分解、角色间协作与审批推理等前沿课题的理想平台。

使用方法

使用EntCollabBench进行评测非常直接且灵活，主要基于Python的`json`库加载任务文件即可。研究者可以首先通过`json.load()`函数读取如`mcp_tasks_160.json`等文件，获取任务列表。每个任务样本中包含了明确的`user_prompt`指令和`target_agent`（或`beginning_agent`）初始智能体指定。为了完整复现交互环境，需要解压并部署`seed.zip`中的种子数据以初始化后台服务。在评估时，模型或智能体系统需要根据任务描述，在模拟的企业环境中调用相应工具、与特定角色智能体协作或提交审批请求，并最终将其执行轨迹与数据集提供的`ground_truth`参考路径进行对比，从而衡量其在结构化企业工作流中的协作与工具使用能力。

背景与挑战

背景概述

EntCollabBench是由Tao Yu、Hao Wang等研究者在2026年构建的一个面向企业级多智能体协作的基准评测数据集。随着大型语言模型在自动化工作流中的广泛应用，如何在模拟企业环境中评估智能体系统的角色分工、工具调用与审批协同能力成为关键研究问题。该数据集包含300个精心设计的任务，聚焦于MCP工具使用与审批决策两大核心场景，为多智能体任务分解、跨角色协作及轨迹评估提供了标准化测试平台。其发布填补了现有基准在企业真实工作流与角色专业化方面的空白，对推动智能体系统从单一全能型向角色协作型转变具有重要影响。

当前挑战

该数据集所解决的领域挑战在于传统评测过度关注最终文本质量而忽视企业级操作流程的完整性与合规性，例如跨部门审批中的策略推理、资源受限环境下的任务委派与状态追踪。构建过程中面临的挑战包括模拟企业服务域（如ITSM、HR、合规审批）的复杂交互逻辑，生成兼具真实性与多样性的审批文档和政策材料，以及设计包含多步骤、多子任务协同的异构评测样本。此外，确保不同智能体角色在工具边界与责任分离约束下的行为可复现，同时兼顾任务难度层次与评估基准的稳健性，亦是该数据集建设的关键难点。

常用场景

经典使用场景

在智能体系统的研究浪潮中，企业级多智能体协作一直缺乏标准化的评估基准。EntCollabBench正是为此而生，其经典使用场景聚焦于评估入口智能体在模拟企业环境中的任务执行能力。研究者可借助该基准，设计并测试一个智能体如何通过调用工具、操作如日历、电子邮件或IT服务管理等企业系统，以及在遇到复杂需求时，向具备特定角色（如人事专员、财务审批员）的同伴智能体进行子任务委派，从而完成用户的真实工作请求。这为多智能体系统的任务分解与协作策略提供了统一且可复现的验证平台。

衍生相关工作

围绕EntCollabBench，学术界已衍生出一系列有价值的研究工作。典型代表包括基于该基准提出的“角色专用型多智能体协作”框架，其核心论文《Beyond the All-in-One Agent: Benchmarking Role-Specialized Multi-Agent Collaboration in Enterprise Workflows》已在arXiv上发表（Yu等, 2026, arXiv:2605.08761）。此外，该数据集催生了针对审批智能体的政策推理增强研究、基于轨迹评估的任务分解算法优化，以及用于多智能体系统鲁棒性测试的对抗样本生成方法。这些工作共同勾勒出企业级智能体协作研究的前沿图景。

数据集最近研究