MirrorAPI

Name: MirrorAPI
Creator: 清华大学计算机科学与技术系、清华大学人工智能研究院、RayNeo、Google、多伦多大学、中国人民大学高薪人工智能学院
Published: 2025-03-26 21:13:03
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

https://huggingface.co/stabletoolbench

下载链接

链接失效反馈

官方服务：

资源简介：

MirrorAPI数据集是由清华大学计算机科学与技术系、清华大学人工智能研究院等机构的研究人员创建的，包含7,000+个API的请求-响应对，涵盖了49个类别。该数据集用于训练专门的语言模型，以准确模拟真实API响应，作为工具环境的'镜子'。数据集通过从RapidAPI收集真实的请求-响应对，并使用监督微调和链式思维推理来提高模拟保真度。

The MirrorAPI dataset was developed by researchers from institutions including the Department of Computer Science and Technology at Tsinghua University, the Institute for Artificial Intelligence at Tsinghua University, and others. It contains over 7,000 API request-response pairs spanning 49 categories. This dataset is designed for training specialized language models to accurately simulate real API responses, acting as a "mirror" for tool environments. The dataset is constructed by collecting real request-response pairs from RapidAPI, and uses supervised fine-tuning and chain-of-thought reasoning to improve simulation fidelity.

提供机构：

清华大学计算机科学与技术系、清华大学人工智能研究院、RayNeo、Google、多伦多大学、中国人民大学高薪人工智能学院

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

MirrorAPI数据集的构建采用了多阶段方法，首先从RapidAPI平台爬取了7,000多个真实API的文档和请求-响应对。通过两阶段场景化方法增强数据多样性：先由大语言模型生成真实使用场景，再基于场景生成API请求。为确保数据质量，采用三层过滤机制处理无效调用，并保留约10,000个参数错误案例以训练失败处理能力。最后通过GPT-4o生成合成数据平衡长尾API分布，最终形成包含95,872个样本的训练集。

特点

该数据集具有三大核心特征：真实性与规模性兼备，覆盖49个类别的7,500个API；精细的失败案例设计，包含参数错误等典型故障模式；独特的思维链增强机制，通过42,465个带有推理注释的样本来捕捉API底层逻辑。特别构建的MirrorAPI-Bench评估集包含分布内和分布外测试组，可全面检验模型泛化能力。

使用方法

使用MirrorAPI需遵循三步流程：首先加载经过监督微调的Qwen2.5-7B基础模型；然后根据任务需求选择SFT或CoT推理模式，SFT模式直接生成API响应，CoT模式则先产生机制解释再输出响应；最后通过标准化JSON接口接收包含错误字段和响应内容的结构化输出。该数据集已集成至StableToolBench平台，支持工具学习模型的训练与评估。

背景与挑战

背景概述

MirrorAPI数据集由清华大学人工智能研究院与多家机构合作开发，旨在解决大型语言模型（LLM）在工具学习中的环境模拟问题。该数据集于2025年提出，核心研究问题是通过训练专用LLM来精确模拟真实API的响应行为，从而构建稳定、可扩展且真实的工具学习环境。MirrorAPI基于来自7,000多个真实API的请求-响应对数据，通过监督微调和思维链推理技术提升模拟的保真度。该数据集的推出显著提升了工具学习领域的基准测试稳定性，并为LLM的工具使用能力研究提供了重要基础设施。

当前挑战

MirrorAPI面临的主要挑战体现在两个维度：领域问题方面，需解决真实API环境的不稳定性（如开发者更新导致的接口变更）与模拟API的行为真实性之间的平衡问题；构建过程方面，存在大规模API文档与实时行为不一致的过滤难题、长尾API数据稀缺的采样困境，以及思维链标注中隐含逻辑的提取挑战。特别地，如何在不泄露响应细节的前提下生成具有指导性的API机制解释，成为提升模拟质量的关键技术瓶颈。

常用场景

经典使用场景

MirrorAPI数据集在工具学习领域中被广泛用于模拟真实API响应，特别是在大规模语言模型（LLMs）与外部工具结合的复杂任务中。通过监督微调和链式思维推理，MirrorAPI能够高保真地模拟7000多个真实API的行为，为研究者和开发者提供了一个稳定且可扩展的测试环境。

衍生相关工作

MirrorAPI的提出推动了工具学习领域的多项衍生研究。例如，基于其框架开发的StableToolBench进一步优化了API环境的稳定性评估标准；同时，其链式思维推理方法被应用于ActRe等研究中，以增强模型对API隐含逻辑的理解。此外，MirrorAPI的数据构建策略也为后续工具模拟器的设计提供了重要参考，如WebShop和AndroidWorld等项目中均借鉴了其场景化请求生成技术。

数据集最近研究