TOOLRET
收藏arXiv2025-03-04 更新2025-03-06 收录
下载链接:
https://mangopy.github.io/tool-retrieval-benchmark/
下载链接
链接失效反馈官方服务:
资源简介:
TOOLRET是一个大规模的工具检索基准,包含7615个多样化的检索任务和一个由43k个工具组成的语料库。该数据集由现有数据集收集而成,涵盖了各种实际工具需求,包括不同类型的工具文档、领域和查询长度。TOOLRET支持指令式信息检索设置,并为每个查询提供指令。该数据集旨在评价信息检索模型在多样化工具检索任务上的性能。
TOOLRET is a large-scale tool retrieval benchmark that includes 7,615 diverse retrieval tasks and a corpus composed of 43k tools. This dataset is curated from existing datasets, covering various practical tool requirements, including different types of tool documents, domains, and query lengths. TOOLRET supports the instructional information retrieval setup, with dedicated instructions provided for each query. This benchmark is designed to evaluate the performance of information retrieval models on diverse tool retrieval tasks.
提供机构:
山东大学, 清华大学, 莱顿大学
创建时间:
2025-03-04
搜集汇总
数据集介绍

构建方式
TOOLRET 数据集的构建方式是通过收集现有的工具使用数据集,并对其进行标准化处理,使其与传统的信息检索基准格式相一致。具体来说,该数据集从 AI 会议论文、相关会议资源和开源社区中收集了 7.6k 个多样化的检索任务,并构建了一个包含 43k 个工具的语料库。为了支持指令检索设置,还引入了一种目标感知策略,使用强大的语言模型为每个查询补充指令。最终,TOOLRET 数据集包含了 7.6k 个任务,每个任务都与一个指令和一个目标工具相关联,以及一个包含 43k 个多样化工具的语料库。
特点
TOOLRET 数据集的特点在于其多样性、复杂性和实用性。它涵盖了多种类型的工具文档、领域和查询长度,包括 Web API、代码函数和自定义应用程序。此外,数据集还通过目标感知策略为每个查询补充了指令,以提高检索性能。实验结果表明,即使是那些在传统信息检索基准上表现良好的模型,在 TOOLRET 上的性能也较差,这表明工具检索任务对检索模型提出了更高的要求。
使用方法
TOOLRET 数据集的使用方法包括两个方面:一是作为评估工具检索性能的基准,二是作为训练 IR 模型的数据集。作为基准,TOOLRET 数据集可以帮助研究人员评估和比较不同 IR 模型的性能,并分析检索对下游任务的影响。作为训练数据集,TOOLRET-train 数据集可以帮助 IR 模型更好地适应工具检索任务,提高检索精度,从而提升工具使用 LLM 的性能。
背景与挑战
背景概述
TOOLRET 数据集的创建旨在评估信息检索模型在工具检索任务中的性能。随着大型语言模型(LLMs)在自然语言处理任务中的广泛应用,它们在处理现实世界任务时仍然存在与物理世界交互和获取实时知识的能力不足的问题。为了克服这些限制,工具学习被提出,旨在为 LLMs 增加外部工具,使它们能够作为代理来操纵工具解决实际问题。在现实应用中,从工具集中检索有用的工具通常是 LLM 代理解决问题的第一步。然而,由于工具使用 LLMs 的上下文长度有限,采用信息检索(IR)模型从大型工具集中选择有用的工具是一个关键的初始步骤。TOOLRET 数据集由 7.6k 个多样化的检索任务和 43k 个工具组成,旨在全面评估 IR 模型在各种检索场景中的性能。
当前挑战
TOOLRET 数据集的创建和评估面临的主要挑战包括:1) 所解决的领域问题:检索模型在工具检索任务中的性能仍然没有得到充分探索和明确。大多数工具使用基准通过手动预标注每个任务的一小部分相关工具来简化这一步骤,这远非真实世界场景。2) 构建过程中所遇到的挑战:TOOLRET 数据集的构建涉及从现有数据集中收集查询-工具数据集,并将其标准化为统一的格式,以便与传统的 IR 基准进行类似格式的检索任务。此外,为了支持指令检索设置,还引入了目标感知策略,使用强大的 LLMs 为每个查询补充指令。这些构建过程中的挑战需要仔细的数据清洗、格式标准化和指令构建,以确保数据集的质量和评估的完整性。
常用场景
经典使用场景
TOOLRET数据集主要用于评估和训练信息检索(IR)模型在工具检索任务中的性能。该数据集包含了7.6k个多样化的检索任务和一个包含43k个工具的语料库,涵盖了从现有数据集中收集的工具。通过对IR模型在TOOLRET上的性能进行基准测试,研究者发现即使是那些在传统IR基准测试中表现良好的模型,在工具检索任务上也表现不佳。这一发现强调了工具检索对于构建更好的工具使用大型语言模型(LLMs)的重要性。
衍生相关工作
TOOLRET数据集的提出,激发了研究者对工具检索任务的深入研究。基于TOOLRET数据集,研究者们开发了新的训练数据集TOOLRET-train,用于训练IR模型,以提高其在工具检索任务中的性能。此外,TOOLRET数据集还促使研究者们探索了指令式检索、多任务嵌入模型和交叉编码重排序等技术在工具检索任务中的应用。
数据集最近研究
最新研究方向
TOOLRET 数据集旨在为大型语言模型(LLMs)配备各种工具,使其能够作为代理解决实际问题。由于工具使用LLMs的上下文长度有限,采用信息检索(IR)模型从大型工具集中选择有用的工具是关键的第一步。然而,IR模型在工具检索任务中的性能仍然没有得到充分探索和明确。大多数工具使用基准通过手动预标注每个任务的一小部分相关工具来简化这一步骤,这与现实世界的场景相去甚远。在这篇论文中,我们提出了TOOLRET,一个包含7.6k个多样化检索任务的异构工具检索基准,以及一个由现有数据集收集的43k个工具的语料库。我们在TOOLRET上对六种类型的模型进行了基准测试。令人惊讶的是,即使在传统IR基准中表现良好的模型,在TOOLRET上的表现也较差。这种低检索质量降低了工具使用LLMs的任务通过率。作为进一步的一步,我们贡献了一个包含超过200k个实例的大规模训练数据集,这大大优化了IR模型的工具检索能力。
相关研究论文
- 1Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models山东大学, 清华大学, 莱顿大学 · 2025年
以上内容由遇见数据集搜集并总结生成



