Tool-RoCo

Name: Tool-RoCo
Creator: 早稻田大学,鹏城实验室,中国石油大学,索尼(中国)有限公司
Published: 2025-11-26 23:45:33
License: 暂无描述

arXiv2025-11-26 更新2025-11-28 收录

下载链接：

https://github.com/ColaZhang22/Tool-Roco

下载链接

链接失效反馈

官方服务：

资源简介：

Tool-RoCo是由早稻田大学与索尼中国等机构联合开发的多机器人协作基准数据集，基于RoCo环境构建了CABINET、PACK和SORT三大任务场景。该数据集通过工具调用机制实现智能体协同，包含集中式合作、自组织等四种渐进式协作范式，每个任务场景均设计有特定的工具集与协作规则。数据集采用去中心化部分可观测马尔可夫决策过程建模，通过自然语言观察-工具选择-环境反馈的交互循环，为评估大语言模型在长期多智能体协作中的自主性与协调能力提供系统化测试平台。

Tool-RoCo is a multi-robot collaboration benchmark dataset jointly developed by Waseda University, Sony China and other relevant institutions. Built upon the RoCo environment, it features three core task scenarios: CABINET, PACK and SORT. Facilitating agent collaboration through a tool invocation mechanism, this dataset incorporates four progressive collaboration paradigms including centralized cooperation and self-organization. Each task scenario is equipped with a dedicated toolset and set of collaboration rules. The dataset is modeled using the decentralized partially observable Markov decision process (Dec-POMDP) framework. Through the interactive loop of natural language observation, tool selection and environment feedback, it provides a systematic testbed for evaluating the autonomy and coordination capabilities of large language models (LLMs) in long-term multi-agent collaborative scenarios.

提供机构：

早稻田大学,鹏城实验室,中国石油大学,索尼(中国)有限公司

创建时间：

2025-11-26

原始信息汇总

ToolRoCo 数据集概述

数据集基本信息

数据集名称: ToolRoCo
项目地址: https://github.com/ColaZhang22/Tool-Roco
基准类型: 多轮工具使用的大语言模型基准
设计目的: 面向协作机器人任务，探索LLM代理的自组织能力

核心特性

代理处理方式: 将所有代理视为工具
模型支持: 同时支持开源和闭源模型
协作任务: 包含三个具体任务
- Cabinet（橱柜任务）
- PackGrocery（包装杂货任务）
- Sort（分类任务）

协作范式

ToolRoCo提供四种合作范式：

合作范式	集中式LLM	分散式LLMs
Agent-not-as-Tool	集中式	分散式
Agent-as-Tool	集中式自组织	自组织

工具与提示模板

工具配置: 各代理的工具列表位于Tool-Roco/prompt_template/agent/Agent_name/tools.json
任务模板: 任务提示模板位于Tool-Roco/prompt_template/task/TaskName
协作工具示例: 包含CONNECT_AGENT功能，用于在无法独立完成任务时添加其他代理到代理池

安装与运行

依赖安装: pip install -r requirements.txt
运行脚本:
- 开源模型: os_centralized.py和os_decentralized.py
- 闭源模型: run_centralized.py和run_decentralized.py
自组织模式: 通过修改bash脚本中的COMM_MODE参数实现
- 集中式: 将"centralized"改为"auto_organization"
- 分散式: 将"decentralized"改为"auto_organization"

搜集汇总

数据集介绍

构建方式

在机器人协同控制领域，Tool-RoCo通过引入“智能体即工具”的创新范式重构了多智能体协作评估体系。该数据集基于RoCo多机器人协作平台，构建了包含CABINET、PACK和SORT三类典型任务的评估框架，每个任务中智能体需通过工具调用实现长期协作。数据采集过程采用分散式部分可观测马尔可夫决策过程建模，智能体根据局部观察选择工具并接收环境反馈，通过多轮迭代优化决策形成动态协作轨迹。

特点

该数据集的核心特征体现在其层次化评估架构与创新性度量指标。通过定义集中式合作、集中式自组织、分散式合作与自组织合作四种渐进式协作范式，系统覆盖了从基础工具调用到高级自主协作的能力谱系。独特设计的合作工具比率与自组织比率指标，精准捕捉了智能体将同伴作为工具调用的协作频次与团队动态重组能力。实验数据表明当前大语言模型在协作工具调用比例仅达7.09%，揭示了智能体协作意识的薄弱环节。

使用方法

研究者可通过标准化API接口接入该评估系统，在三种机器人协作任务中测试不同大语言模型的协作性能。使用流程包含环境状态感知、结构化工具选择、动作执行与反馈收集的完整闭环，支持最多十轮决策与五次重规划机制。评估时需分别运行四种协作范式，通过工具调用正确率、参数验证、执行有效性等基础指标与合作工具比率、自组织比率等高级指标，形成从基础能力到复杂协作的立体评估报告。

背景与挑战

背景概述

随着大语言模型在多智能体系统中的广泛应用，其在复杂协作任务中的自主性与协调能力评估成为研究焦点。Tool-RoCo由早稻田大学、鹏城实验室及索尼中国研发中心等机构于2025年联合提出，聚焦于多机器人长期协作场景下的智能体自组织能力评测。该基准创新性地将智能体视为可调用工具，通过定义集中式合作、集中式自组织、分布式合作与自组织合作四类渐进式协作范式，系统化衡量大语言模型在动态环境中的任务分解、工具选择与协同决策能力，为多智能体系统的自主演化研究提供了标准化评估框架。

当前挑战

当前多智能体系统面临的核心挑战在于如何实现动态自组织协作，传统基准依赖预设角色与固定交互流程，难以评估智能体在长期任务中的自主协调能力。Tool-RoCo构建过程中需解决三大难题：其一，设计兼顾工具调用正确性与协同行为量化评估的指标体系；其二，在部分可观测环境下实现分布式智能体的动态激活与解除机制；其三，平衡不同自主层级范式的复杂度与实验可复现性。实验表明，现有大语言模型虽能实现基础工具调用，但协同工具使用率仅7.09%，且智能体倾向于维持激活状态而非自适应调整协作规模，揭示出其自组织决策机制尚存局限。

常用场景

经典使用场景

在智能机器人协同控制领域，Tool-RoCo数据集通过构建多机器人长期协作任务框架，系统评估大语言模型在分布式决策环境中的自治能力。该数据集以RoCo多机器人基准为基础，设计了SORT、PACK和CABINET三类典型任务场景，通过工具调用机制模拟真实世界中的物体分拣、物品包装和储物柜操作等复杂协作流程。每个任务要求智能体基于局部观测动态选择工具，并通过四层渐进式协作范式实现从集中控制到完全自组织的过渡，为研究多智能体系统的涌现行为提供了标准化实验平台。

解决学术问题

Tool-RoCo有效解决了多智能体系统中长期存在的自治性评估难题。传统基准依赖预定义的角色分配与固定协作流程，无法量化智能体的自组织能力。该数据集创新性地提出'智能体即工具'概念，通过合作工具调用比例（CT）与自组织率（SO）两项指标，首次实现了对LLM智能体协同意愿与动态组织能力的精确度量。实验表明当前LLM智能体虽能维持高激活率（SO达96.42%），但合作工具使用率仅7.09%，揭示了现有模型在自适应协作方面的本质缺陷，为突破多智能体认知瓶颈提供了关键理论依据。

衍生相关工作

Tool-RoCo的发布催生了多智能体学习领域的系列创新研究。其'智能体即工具'范式被扩展应用于MASTER框架的蒙特卡洛树搜索优化，提升了多智能体在不确定环境下的决策质量。基于合作工具比例指标，后续研究开发了分层强化学习算法，通过课程学习逐步提升智能体的协作复杂度。在基准拓展方面，Collab-Overcook等工作借鉴其长期任务设计思路，构建了更具挑战性的协作烹饪环境。这些衍生工作共同推动了多模态机器人协作、动态角色分配等方向的发展，形成了以工具调用为核心的多智能体评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集