ToolSearch

Hugging Face2025-12-09 更新2025-12-10 收录

下载链接：

https://huggingface.co/datasets/bowang0911/ToolSearch

下载链接

链接失效反馈

官方服务：

资源简介：

ToolSearch是一个用于评估嵌入模型在匹配用户提示和相关编程工具方面性能的工具检索基准数据集。它包含580个编程工具及其描述和对应的自然语言提示，创建了一个真实的工具检索场景，要求嵌入模型能够理解工具功能和用户意图。数据集遵循标准MTEB检索格式，包含三个配置：默认配置（相关性判断）、语料库配置（工具文档）和查询配置（用户提示）。数据集主要用于文本检索任务，语言为英语，领域为编程工具、API和开发。

创建时间：

2025-11-26

原始信息汇总

ToolSearch数据集概述

数据集基本信息

数据集名称: ToolSearch
发布者: Bo Wang
发布日期: 2025年
许可协议: MIT License
语言: 英语
领域: 编程工具、API、开发
任务类别: 文本检索
标签: 信息检索、工具检索、MTEB、嵌入、基准测试
数据规模: n<1K

数据集描述

ToolSearch是一个用于评估嵌入模型在匹配用户提示与相关编程工具方面的工具检索基准。它包含580个编程工具及其描述和相应的自然语言提示，创建了一个真实的工具检索场景，要求嵌入模型必须理解工具功能和用户意图。

数据集结构

数据集遵循标准的MTEB检索格式，包含三种配置。

默认配置 - 相关性判断

分割: test
特征:
- query-id: 字符串类型
- corpus-id: 字符串类型
- score: 浮点64类型
示例数量: 580

语料库配置 - 工具文档

分割: corpus
特征:
- _id: 字符串类型
- title: 字符串类型
- text: 字符串类型
示例数量: 580

查询配置 - 用户提示

分割: queries
特征:
- _id: 字符串类型
- text: 字符串类型
示例数量: 580

数据文件

默认配置: data/test-*.parquet
语料库配置: corpus/corpus-*.parquet
查询配置: queries/queries-*.parquet

数据集统计

工具总数: 580
查询总数: 580
相关性对总数: 580

基准测试结果

各种嵌入模型在ToolSearch上的性能表现：

模型	Recall@1	Recall@3	Recall@5	Recall@10
BM25 (词汇基线)	46.6%	66.4%	74.7%	81.6%
all-MiniLM-L6-v2	50.7%	72.8%	80.0%	85.5%
bge-m3	54.5%	74.8%	80.5%	87.1%
Qwen3-Embedding-0.6B	58.5%	78.5%	83.6%	87.9%
ToolRet-trained-bge-base	69.8%	85.0%	89.5%	92.8%
ToolRet-trained-bge-large	68.6%	85.9%	90.2%	94.1%

引用信息

bibtex @dataset{toolsearch2025, title={ToolSearch: A Tool Retrieval Dataset for Embedding Evaluation}, author={Bo Wang}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/bowang0911/ToolSearch} }

搜集汇总

数据集介绍

构建方式

在信息检索领域，针对编程工具匹配的评估需求日益增长，ToolSearch数据集应运而生。该数据集精心构建了580个编程工具及其描述，并对应生成自然语言提示，模拟真实场景下的工具检索任务。其构建过程遵循MTEB检索基准的标准格式，通过三个独立配置分别管理相关性判断、工具文档和用户查询，确保了数据结构的一致性与评估的严谨性。每个工具条目均包含唯一标识符、标题与功能文本，而查询则模拟了用户的实际意图表达，两者通过预定义的相关性评分形成配对，为嵌入模型提供了高质量的评估基础。

特点

ToolSearch数据集在工具检索领域展现出鲜明的特色，其核心在于将编程工具的功能描述与自然语言用户提示精准对应，构建了一个高度现实化的评估环境。数据集规模适中，包含580对完全匹配的工具与查询，确保了评估的集中性与代表性。所有数据均以英语呈现，专注于编程工具、API及开发领域，语言简洁且专业。该数据集完全兼容MTEB框架，支持便捷的基准测试集成，同时提供了详细的性能对比表格，涵盖BM25词汇基线到多种先进嵌入模型的结果，为研究者提供了清晰的性能参照。这种结构化的设计不仅促进了模型在语义理解与意图匹配方面的评估，也推动了工具检索技术的迭代与发展。

使用方法

为有效利用ToolSearch数据集进行评估，用户可借助Hugging Face的datasets库分别加载测试集、语料库和查询集。测试集包含查询与语料标识符及其相关性分数，语料库存储了工具文档，而查询集则提供了用户提示文本。通过MTEB框架，用户能够直接调用ToolRetrieval任务，对嵌入模型进行标准化评估，获取如Recall@1、Recall@3等关键指标。数据集的使用流程清晰简便，支持模型在真实工具匹配场景下的性能量化，助力于信息检索与嵌入技术的研究与优化。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，工具检索作为提升开发者效率的关键技术，日益受到学术界与工业界的重视。ToolSearch数据集由研究人员Bo Wang于2025年创建并发布，旨在为评估嵌入模型在编程工具检索任务上的性能提供一个标准化基准。该数据集聚焦于自然语言提示与相应编程工具之间的语义匹配问题，涵盖了580个编程工具及其描述，模拟了真实的开发场景中用户意图与工具功能之间的关联需求。通过集成至MTEB评估框架，ToolSearch推动了嵌入模型在特定领域检索能力的研究，为工具发现与自动化编程辅助系统的进展提供了重要的数据支撑。

当前挑战

ToolSearch数据集所应对的核心领域挑战在于，如何使嵌入模型精准理解用户自然语言查询的深层意图，并将其与结构化或半结构化的工具描述进行有效匹配，这要求模型克服语义鸿沟与领域术语的复杂性。在构建过程中，挑战主要体现在数据收集与标注环节：需要从多样化的编程工具中提取准确且一致的功能描述，同时设计具有代表性和真实性的用户查询，以确保数据质量与评估的可靠性。此外，保持工具与查询之间一对一的相关性映射，避免偏差并覆盖广泛的工具类别，也是数据集构建中需细致处理的关键问题。

常用场景

经典使用场景

在信息检索与工具发现领域，ToolSearch数据集为评估嵌入模型在自然语言查询与编程工具匹配任务中的性能提供了标准化的基准。该数据集模拟了现实世界中开发者通过自然语言描述寻找合适API或开发工具的场景，其中包含580个编程工具及其描述，以及对应的用户查询，构成了一个典型的检索评估框架。研究人员利用该数据集训练和测试模型，以衡量模型在理解工具功能与用户意图方面的语义匹配能力，从而推动工具检索技术的进步。

解决学术问题

ToolSearch数据集主要解决了工具检索领域中的语义鸿沟问题，即如何准确地将用户模糊的自然语言需求映射到结构化的工具描述上。在学术研究中，它帮助量化嵌入模型在跨模态语义理解方面的效能，为评估模型在真实编程环境中的适用性提供了可靠依据。通过提供标准化的评估指标如Recall@K，该数据集促进了检索模型在精度与召回率之间的平衡优化，对推动自动化工具发现和智能编程助手的发展具有重要理论意义。

衍生相关工作

围绕ToolSearch数据集，已衍生出多项经典研究工作，特别是在工具检索模型的微调与评估方面。例如，基于bge架构的ToolRet-trained系列模型通过在该数据集上的专门训练，显著提升了检索性能，成为该领域的基准模型。同时，该数据集被整合入MTEB评估框架，促进了跨模型比较研究，并激励了后续针对多语言或跨领域工具检索的扩展工作，推动了整个嵌入模型社区在实用化方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集