Toolathlon-GYM

github2026-03-14 更新2026-03-15 收录

下载链接：

https://github.com/eigent-ai/toolathlon_gym

下载链接

链接失效反馈

官方服务：

资源简介：

Toolathlon-GYM是一个大规模、自包含的环境，包含503个任务、25个MCP服务器和一个丰富的模拟数据库。它完全在本地运行，无需在运行时调用外部API。该数据集旨在测试代理在实际应用中的能力，包括跨异构工具的多步规划、读写结构化文件格式、跨系统数据同步以及在固定步骤预算下的长视野任务完成。

Toolathlon-GYM is a large-scale, self-contained environment that comprises 503 tasks, 25 MCP servers, and a rich simulated database. It runs entirely locally, with no need to call external APIs during runtime. This dataset is designed to evaluate agents' capabilities in real-world applications, including multi-step planning across heterogeneous tools, reading and writing structured file formats, cross-system data synchronization, and long-horizon task completion within a fixed step budget.

创建时间：

2026-03-08

原始信息汇总

Toolathlon-GYM 数据集概述

数据集简介

Toolathlon-GYM 是一个用于训练和评估大语言模型（LLM）智能体真实工具使用能力的大规模、自包含环境。它包含 503 个多工具任务、25 个 MCP 服务器和一个丰富的模拟数据库。该环境完全在本地运行，无需调用外部 API。

核心特性

规模与多样性：包含 503 个任务，覆盖 25 个 MCP 服务器和 6 个数据领域。
完全本地化与可复现性：整个环境通过单个 Docker Compose 文件运行。评估时无需数据服务的 API 密钥。PostgreSQL 数据转储是版本化且确定性的。
真实任务复杂度：任务源自真实的企业工作流模式，大多数任务需要 4-7 个工具才能正确完成。

任务结构

所有 503 个任务位于 tasks/finalpool/ 目录下。每个任务目录遵循一致的布局：

task_config.json：指定智能体可使用的 MCP 服务器。
docs/task.md：展示给智能体的任务描述（已进行去品牌化处理）。
evaluation/main.py：自动评估脚本。
preprocess/main.py：数据库状态设置脚本（每个任务运行前自动执行）。
initial_workspace/：预加载到智能体工作空间的输入文件。
groundtruth_workspace/：用于评估的参考输出。

模拟数据库

连接信息：数据库 toolathlon_gym @ localhost:5432（用户：eigent，密码：camel）。
数据来源：所有数据由本地 PostgreSQL 数据库提供，从压缩转储文件（db/init.sql.gz，8.2 MB）初始化。运行时无需外部 API 调用。
数据派生：数据源自或模拟自真实世界数据源，包括 Kaggle OULAD（学习管理系统数据）、Kaggle HR Analytics（企业 HR 数据）、Yahoo Finance API（金融数据）以及 Kaggle Amazon 产品数据集和 DummyJSON（电子商务数据）。

数据丰富的模式

MCP 数据库	描述	规模
canvas	学习管理系统 — 课程、用户、注册、作业、提交、测验、评分标准、公告	22 门课程，28,865 名用户，32,663 次注册，206 项作业，173,912 份提交，77 次测验
snowflake	企业数据仓库 — HR 分析、销售和支持中心领域	50,000 名员工，20,000 个销售订单，31,588 张支持工单
woocommerce	电子商务 — 产品、订单、客户、优惠券、评论、配送区域、税率	82 个产品，150 个订单，50 名客户，396 条评论
yahoo_finance	股票市场 — 价格、财务报表、新闻、期权、持有者	50 个股票代码，3,510 条价格记录
youtube	视频平台 — 频道、播放列表、视频、字幕	3 个频道，2 个播放列表，135 个视频
train	铁路系统 — 车站、列车、路线、座位	8 列火车，16 条路线

数据集统计

任务总数：503

MCP 数量分布

任务所需 MCP 服务器数量从 4 到 8 个不等，大多数任务需要 4-7 个工具。更高的 MCP 数量意味着需要更多的跨系统协调。

MCP 服务器覆盖范围

数据集中可用的 25 个 MCP 服务器涵盖文件输入/输出、数据仓库、生产力工具、网络交互和特定领域 API。

最常用的服务器反映了任务输出密集的特性。filesystem 几乎出现在每个任务中，作为智能体读取输入文件和写入结果的工作空间。excel 和 emails 是两个最常见的输出渠道。
snowflake 是企业工作流任务的主要数据源，暴露三个领域：HR 分析、销售和客户支持。
canvas 是 LMS 任务的锚点。
其他服务器如 playwright_with_chunk、fetch、google_forms、howtocook、pdf-tools、memory、youtube-transcript 等，分别用于网页抓取、API 调用、表单创建、食谱数据库、PDF 处理、多轮研究跟踪和视频字幕提取等任务。

初始工作空间文件

任务开始时提供给智能体的初始工作空间文件涵盖 11 种不同的格式，反映了真实企业工作流中的文档范围。

Markdown (.md) 文件是最常见的输入，用作任务简报、操作指南和规划模板。
PDF (.pdf) 文件是智能体在行动前必须解析的参考文档。
JSON (.json) 文件携带参数化配置。
Excel (.xlsx) 输入是预填充的模板。
CSV (.csv) 文件携带表格参考数据。
Text (.txt) 文件提供轻量级结构化内容。
Python (.py) 脚本是智能体通过终端完成并执行的起始模板。
其他较少见的格式包括 .pptx、.docx、.bib 和 .gz，各自服务于特定角色。

快速开始

先决条件

Docker 和 Docker Compose

基本步骤

构建并启动：构建智能体镜像并启动 PostgreSQL。
运行任务：每个任务在其独立的临时 Docker 容器中运行。通过脚本 scripts/run_containerized.sh 执行任务，可指定模型平台和参数。

模型提供商参考

支持的 MODEL_PLATFORM 包括：openai_compatible、openai、anthropic、gemini。需设置相应的环境变量（如 MODEL_API_KEY、MODEL_API_URL）。

致谢与引用

Toolathlon-GYM 基于 HKUST-NLP 的 Toolathlon 项目的基础设施和原始数据管道构建。模拟数据库模式设计、MCP 服务器接口和任务评估框架源自 Toolathlon 项目。本数据集通过额外的任务和更大规模的模拟数据进行了扩展。

引用格式： bibtex @misc{toolathlon-gym, author = {Puzhen Zhang and Weijie Bai and Wendong Fan and Guohao Li}, title = {{Toolathlon-GYM: Large-Scale Long-Horizon Environments for Tool-Use Agents}}, year = {2026}, url = {https://github.com/eigent-ai/toolathlon_gym} }

联系

如需联系，请发送邮件至 info@eigent.ai

搜集汇总

数据集介绍

构建方式

在智能体工具使用评估领域，现有数据集常受限于工具覆盖范围狭窄、规模有限或依赖易变的外部API。Toolathlon-GYM的构建基于HKUST-NLP的Toolathlon基础设施，通过扩展其任务格式、评估框架及MCP服务器接口，创建了一个包含503项任务的大规模自包含环境。该数据集采用本地化设计，集成了25个MCP服务器与一个丰富的模拟PostgreSQL数据库，所有数据源自Kaggle OULAD、HR Analytics等真实数据集，并经过仿真处理。每个任务均通过自动化脚本设置初始工作空间状态，智能体在固定步骤预算内使用指定工具完成端到端目标，最终由评估脚本对照基准真值自动验证输出，无需人工干预或外部服务调用。

特点

Toolathlon-GYM的突出特点在于其规模与多样性，涵盖503项任务，涉及6大数据领域，任务复杂度分布从4到8个MCP服务器不等，要求智能体进行跨系统协调与长程规划。数据集完全本地化运行，基于Docker容器化环境与版本化的PostgreSQL数据快照，确保了评估过程的可复现性与稳定性，避免了外部API的速率限制或架构漂移问题。任务设计模拟真实企业工作流程，如从数据库提取数据生成电子表格报告、跨平台同步信息等，强调对异构工具的多步骤规划、结构化文件读写及数据流整合能力的压力测试。

使用方法

使用Toolathlon-GYM需在Docker环境中部署，通过Docker Compose启动PostgreSQL数据库并构建智能体镜像。运行任务时，需设置模型平台环境变量（如OpenAI兼容端点或官方API），并执行容器化脚本指定任务名称与步骤限制。每个任务在独立的临时容器中执行，输出结果将保存至主机的转储目录，包含完整对话轨迹与每轮LLM请求日志。数据集提供基于CAMEL-AI框架的示例智能体，用户可参照其结构开发自定义代理，利用自动化评估脚本对任务完成情况进行量化分析，以系统评估智能体在复杂工具使用场景下的性能。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLM）代理的复杂工具使用能力评估长期面临基准数据集规模有限、工具覆盖狭窄以及依赖不稳定外部API等瓶颈。Toolathlon-GYM数据集应运而生，由Eigent AI团队于2026年基于香港科技大学NLP实验室的Toolathlon项目基础设施构建而成。该数据集通过整合503项多工具任务、25个MCP服务器及本地化PostgreSQL数据库，构建了一个完全自包含的评估环境，旨在系统化测试代理在跨异构工具规划、结构化文件读写及长程任务执行等方面的实际能力。其大规模、高复杂度的任务设计显著推进了工具使用智能体在真实工作流模拟场景下的研究进程。

当前挑战

该数据集致力于解决复杂工具使用智能体评估中的核心挑战：如何设计能够全面衡量代理在跨系统协调、多步骤规划及数据流整合等方面能力的基准任务。构建过程中的主要挑战包括：第一，在完全本地化环境中模拟真实企业级数据流与工具交互，需设计可扩展的数据库架构与MCP服务器接口以覆盖多样化的业务场景；第二，确保503项任务在工具组合、数据域及输出格式上的多样性，同时维持自动化评估流程的可靠性与一致性；第三，在避免依赖外部API的前提下，生成足够规模且逼真的模拟数据，以支持长程、多工具任务的训练与评估需求。

常用场景

经典使用场景

在大型语言模型智能体研究领域，Toolathlon-GYM数据集为评估和训练工具使用能力提供了标准化的基准环境。该数据集通过503个多工具任务，模拟了从企业数据库提取数据、生成电子表格报告、安排日历事件到发送摘要邮件等端到端目标。每个任务均要求智能体在固定的MCP服务器工具集内进行多步骤规划与执行，从而系统性地测试智能体在异构工具间的协调能力、结构化文件读写以及长视野任务完成效率。

解决学术问题

Toolathlon-GYM有效解决了智能体工具使用评估中工具覆盖范围狭窄、规模有限以及依赖易变外部API等学术难题。通过本地化PostgreSQL数据库与25个MCP服务器构建的自包含环境，该数据集提供了可复现、规模化的测试平台，支持对智能体在多步骤规划、跨系统数据同步及受限步数预算下的长程任务完成能力进行严谨评估。其意义在于推动了智能体工具使用研究从单一工具调用向复杂工作流协调的范式转变，为学术界提供了稳定且多样化的评估基准。

衍生相关工作

Toolathlon-GYM的构建基础源于香港科技大学NLP团队开发的Toolathlon项目，继承了其任务格式、评估框架与MCP服务器接口设计。该数据集的推出进一步催生了一系列围绕复杂工具使用智能体的研究工作，例如基于CAMEL-AI框架的示例智能体实现，以及针对多工具协调、长程规划等子问题的算法改进。这些衍生工作共同深化了对智能体工具使用机制的理解，并推动了更鲁棒、更通用的智能体架构的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集