Toolathlon-GYM
收藏Toolathlon-GYM 数据集概述
数据集简介
Toolathlon-GYM 是一个用于训练和评估大语言模型(LLM)智能体真实工具使用能力的大规模、自包含环境。它包含 503 个多工具任务、25 个 MCP 服务器和一个丰富的模拟数据库。该环境完全在本地运行,无需调用外部 API。
核心特性
- 规模与多样性:包含 503 个任务,覆盖 25 个 MCP 服务器和 6 个数据领域。
- 完全本地化与可复现性:整个环境通过单个 Docker Compose 文件运行。评估时无需数据服务的 API 密钥。PostgreSQL 数据转储是版本化且确定性的。
- 真实任务复杂度:任务源自真实的企业工作流模式,大多数任务需要 4-7 个工具才能正确完成。
任务结构
所有 503 个任务位于 tasks/finalpool/ 目录下。每个任务目录遵循一致的布局:
task_config.json:指定智能体可使用的 MCP 服务器。docs/task.md:展示给智能体的任务描述(已进行去品牌化处理)。evaluation/main.py:自动评估脚本。preprocess/main.py:数据库状态设置脚本(每个任务运行前自动执行)。initial_workspace/:预加载到智能体工作空间的输入文件。groundtruth_workspace/:用于评估的参考输出。
模拟数据库
- 连接信息:数据库
toolathlon_gym@localhost:5432(用户:eigent,密码:camel)。 - 数据来源:所有数据由本地 PostgreSQL 数据库提供,从压缩转储文件(
db/init.sql.gz,8.2 MB)初始化。运行时无需外部 API 调用。 - 数据派生:数据源自或模拟自真实世界数据源,包括 Kaggle OULAD(学习管理系统数据)、Kaggle HR Analytics(企业 HR 数据)、Yahoo Finance API(金融数据)以及 Kaggle Amazon 产品数据集和 DummyJSON(电子商务数据)。
数据丰富的模式
| MCP 数据库 | 描述 | 规模 |
|---|---|---|
| canvas | 学习管理系统 — 课程、用户、注册、作业、提交、测验、评分标准、公告 | 22 门课程,28,865 名用户,32,663 次注册,206 项作业,173,912 份提交,77 次测验 |
| snowflake | 企业数据仓库 — HR 分析、销售和支持中心领域 | 50,000 名员工,20,000 个销售订单,31,588 张支持工单 |
| woocommerce | 电子商务 — 产品、订单、客户、优惠券、评论、配送区域、税率 | 82 个产品,150 个订单,50 名客户,396 条评论 |
| yahoo_finance | 股票市场 — 价格、财务报表、新闻、期权、持有者 | 50 个股票代码,3,510 条价格记录 |
| youtube | 视频平台 — 频道、播放列表、视频、字幕 | 3 个频道,2 个播放列表,135 个视频 |
| train | 铁路系统 — 车站、列车、路线、座位 | 8 列火车,16 条路线 |
数据集统计
任务总数:503
MCP 数量分布
任务所需 MCP 服务器数量从 4 到 8 个不等,大多数任务需要 4-7 个工具。更高的 MCP 数量意味着需要更多的跨系统协调。
MCP 服务器覆盖范围
数据集中可用的 25 个 MCP 服务器涵盖文件输入/输出、数据仓库、生产力工具、网络交互和特定领域 API。
- 最常用的服务器反映了任务输出密集的特性。
filesystem几乎出现在每个任务中,作为智能体读取输入文件和写入结果的工作空间。excel和emails是两个最常见的输出渠道。 snowflake是企业工作流任务的主要数据源,暴露三个领域:HR 分析、销售和客户支持。canvas是 LMS 任务的锚点。- 其他服务器如
playwright_with_chunk、fetch、google_forms、howtocook、pdf-tools、memory、youtube-transcript等,分别用于网页抓取、API 调用、表单创建、食谱数据库、PDF 处理、多轮研究跟踪和视频字幕提取等任务。
初始工作空间文件
任务开始时提供给智能体的初始工作空间文件涵盖 11 种不同的格式,反映了真实企业工作流中的文档范围。
- Markdown (
.md) 文件是最常见的输入,用作任务简报、操作指南和规划模板。 - PDF (
.pdf) 文件是智能体在行动前必须解析的参考文档。 - JSON (
.json) 文件携带参数化配置。 - Excel (
.xlsx) 输入是预填充的模板。 - CSV (
.csv) 文件携带表格参考数据。 - Text (
.txt) 文件提供轻量级结构化内容。 - Python (
.py) 脚本是智能体通过终端完成并执行的起始模板。 - 其他较少见的格式包括
.pptx、.docx、.bib和.gz,各自服务于特定角色。
快速开始
先决条件
- Docker 和 Docker Compose
基本步骤
- 构建并启动:构建智能体镜像并启动 PostgreSQL。
- 运行任务:每个任务在其独立的临时 Docker 容器中运行。通过脚本
scripts/run_containerized.sh执行任务,可指定模型平台和参数。
模型提供商参考
支持的 MODEL_PLATFORM 包括:openai_compatible、openai、anthropic、gemini。需设置相应的环境变量(如 MODEL_API_KEY、MODEL_API_URL)。
致谢与引用
Toolathlon-GYM 基于 HKUST-NLP 的 Toolathlon 项目的基础设施和原始数据管道构建。模拟数据库模式设计、MCP 服务器接口和任务评估框架源自 Toolathlon 项目。本数据集通过额外的任务和更大规模的模拟数据进行了扩展。
引用格式: bibtex @misc{toolathlon-gym, author = {Puzhen Zhang and Weijie Bai and Wendong Fan and Guohao Li}, title = {{Toolathlon-GYM: Large-Scale Long-Horizon Environments for Tool-Use Agents}}, year = {2026}, url = {https://github.com/eigent-ai/toolathlon_gym} }
联系
如需联系,请发送邮件至 info@eigent.ai




