Toucan-1.5M

github2025-10-02 更新2025-10-04 收录

下载链接：

https://github.com/TheAgentArk/Toucan

下载链接

链接失效反馈

官方服务：

资源简介：

Toucan-1.5M是迄今为止最大的全合成工具代理数据集，旨在推进代理LLM中的工具使用。它包含超过150万条轨迹，合成自495个真实世界模型上下文协议（MCPs），涵盖2000多个工具。通过利用真实的MCP环境，Toucan-1.5M生成了多样化、真实且具有挑战性的任务，需要使用多个工具，轨迹涉及在多轮、多回合、顺序和并行工具调用中的真实工具执行。在Toucan-1.5M上微调的模型在BFCL V3基准测试中优于更大的闭源模型，并在MCP-Universe基准测试中扩展了帕累托前沿。

Toucan-1.5M is the largest fully synthetic tool agent dataset to date, designed to advance tool use in agentic Large Language Models (LLMs). It contains over 1.5 million trajectories synthesized from 495 real-world Model Context Protocols (MCPs), covering more than 2,000 tools. Leveraging real MCP environments, Toucan-1.5M generates diverse, realistic, and challenging tasks that require multi-tool usage, with trajectories involving real-world tool execution across multi-round, multi-turn, sequential, and parallel tool calls. Models fine-tuned on Toucan-1.5M outperform larger closed-source models on the BFCL V3 benchmark, and extend the Pareto frontier on the MCP-Universe benchmark.

创建时间：

2025-10-01

原始信息汇总

Toucan-1.5M 数据集概述

数据集简介

Toucan-1.5M 是迄今为止最大的全合成工具-智能体数据集，旨在推进智能体大语言模型中的工具使用。该数据集包含超过150万条轨迹，从495个真实世界模型上下文协议（MCPs）中合成，涵盖2000多个工具。

核心特征

利用真实的MCP环境生成多样化、真实且具有挑战性的任务
任务要求使用多个工具
轨迹涉及在多轮、多回合、顺序和并行工具调用中的真实工具执行

性能表现

基于Toucan-1.5M微调的模型在BFCL V3基准测试中优于更大的闭源对应模型，并在MCP-Universe基准测试中扩展了帕累托前沿。

引用信息

@misc{xu2025toucan, title={TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments}, author={Zhangchen Xu and Adriana Meza Soria and Shawn Tan and Anurag Roy and Ashish Sunil Agrawal and Radha Poovendran and Rameswar Panda}, year={2025}, eprint={2510.01179}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2510.01179}, }

搜集汇总

数据集介绍

构建方式

在智能体工具学习领域，Toucan-1.5M通过合成方法构建了规模空前的工具使用轨迹数据集。该数据集基于495个真实世界模型上下文协议（MCP）环境，覆盖超过2000种工具，采用自动化流程生成多轮对话轨迹。每条数据记录均包含实际工具执行过程，涵盖顺序调用、并行调用等复杂场景，确保了任务场景的多样性与真实性。

使用方法

研究人员可通过官方提供的标准化流程部署Toucan-1.5M数据集。首先需要配置Python 3.12环境并安装依赖包，包括PyTorch框架及定制化Qwen Agent组件。数据集支持通过Hugging Face平台直接获取，配套的生成管道代码位于项目GitHub仓库的datagen目录，便于用户复现数据合成过程或进行定制化扩展。

背景与挑战

背景概述

在人工智能领域，工具增强型语言代理的发展正逐步成为实现通用智能的关键路径。2025年，由Agent-Ark团队发布的Toucan-1.5M数据集标志着该领域的重要突破，作为当前规模最大的全合成工具代理数据集，其基于495个真实世界模型上下文协议构建，涵盖逾两千种工具的使用场景。该数据集通过模拟真实环境生成超过150万条任务轨迹，致力于解决多轮对话中工具调用序列化与并行化的核心问题，为提升语言模型在复杂任务中的工具协同能力提供了重要基准。

当前挑战

工具增强型语言代理面临的核心挑战在于如何实现多工具间的动态协调与错误恢复机制，特别是在处理异构工具接口与长周期任务时尤为显著。Toucan-1.5M在构建过程中需克服合成数据的真实性验证难题，既要确保工具调用轨迹的语义合理性，又需维持多轮交互中的状态一致性。此外，从495个协议中提取2000余种工具的标准化表征，同时保持任务难度与多样性的平衡，构成了数据集构建过程中的主要技术壁垒。

常用场景

经典使用场景

在智能体与大语言模型融合的研究领域中，Toucan-1.5M数据集被广泛用于训练和评估工具调用能力。该数据集通过模拟真实世界模型上下文协议环境，构建了涵盖多轮对话、并行工具调用等复杂交互场景，为研究多工具协同决策提供了丰富样本。其大规模合成轨迹能够有效提升模型在动态环境中的工具选择与执行精度，已成为工具导向智能体开发的核心训练资源。

解决学术问题

该数据集主要解决了智能体工具使用中的泛化性与复杂性挑战。通过整合495个真实MCP协议下的2000余种工具，它系统性地突破了传统方法在跨领域工具调用方面的局限。在BFCL V3和MCP-Universe基准测试中，基于该数据集训练的模型显著优于规模更大的闭源系统，推动了工具增强型语言模型的帕累托边界扩展，为构建可靠的多工具协作智能体奠定了理论基础。

实际应用

在实际部署层面，Toucan-1.5M支撑的智能体可应用于复杂业务流程自动化场景。例如在企业级软件集成中，训练后的模型能够协调多个API工具完成数据查询、文档生成等串联任务。其真实工具执行轨迹的特性，使得智能体在客服系统、智能办公助手等需要多系统交互的领域表现出色，有效降低了人工操作成本并提升了任务完成率。

数据集最近研究