AgentSearchBench

github2026-04-27 更新2026-04-28 收录

下载链接：

https://github.com/Bingo-W/AgentSearchBench

下载链接

链接失效反馈

官方服务：

资源简介：

AgentSearchBench是一个大规模的真实世界AI代理搜索基准，构建自多个提供商的近10,000个真实世界代理，并运行了超过66K次代理执行。随后，生成了超过3.6K任务查询和324任务描述。

AgentSearchBench is a large-scale real-world AI agent search benchmark. It is constructed from nearly 10,000 real-world agents across multiple providers, with over 66K agent executions conducted. Subsequently, more than 3.6K task queries and 324 task descriptions were generated.

创建时间：

2026-04-07

原始信息汇总

AgentSearchBench 数据集详情

数据集概述

AgentSearchBench 是一个面向真实场景的 AI Agent 搜索基准测试数据集，旨在评估在庞大的 AI Agent 生态系统中为给定任务寻找合适 Agent 的能力。该数据集基于来自多个平台的近 10,000 个真实世界 Agent 构建，将 Agent 搜索形式化为检索和重排序问题。

核心规模

Agent 总数：9,759 个真实世界 AI Agent
数据来源：GPT Store、Google Cloud Marketplace、AgentAI Platform
Agent 执行次数：超过 66,000 次
任务查询（Task Query）：超过 3,600 个
任务描述（Task Description）：324 个

数据划分

划分	总计	单Agent任务查询	多Agent任务查询	任务描述
验证集	3,211	2,452	500	259
测试集	798	633	100	65

数据集构成

数据以 HuggingFace Datasets 形式发布，包含三个子集：

AgentSearchBench-Tasks：基准测试任务
AgentSearchBench-Agents：Agent 基础数据集
AgentSearchBench-Responses：验证集的原始 Agent 执行结果

备用下载方式：Google Drive。

评估任务

基准测试包含两大类搜索任务：

可执行任务查询（Executable Task Queries）：可直接执行的 Agent 任务需求
高层任务描述（High-level Task Descriptions）：对任务的概括性描述

评估使用基于执行结果的性能信号来衡量相关性。

排行榜概览

任务描述重排序（Task Description Reranking）

排名	模型	NDCG@5	NDCG@20
🥇 1	RankGPT GPT-5.2	64.66	84.69
2	Qwen Reranker 4B	60.58	82.84
3	Tool-Rank 8B	61.97	82.76
12	Random Shuffle*	48.27	76.60

任务查询重排序（Task Query Reranking）

排名	模型	NDCG@5	NDCG@20
🥇 1	Qwen Reranker 4B	64.53	81.97
2	Tool-Rank 8B	64.36	81.96
3	RankGPT GPT-5.2	64.57	81.88
12	MiniLM-L12 v2	48.06	73.53

任务描述检索（Task Description Retrieval）

排名	模型	NDCG@20	Recall@20
🥇 1	ToolRet	17.21	6.69
2	Tool-Embed	17.19	6.41
3	Qwen-Embedding 8B	16.51	6.15
13	SPLADE v2	6.93	2.49

任务查询检索（Task Query Retrieval）

排名	模型	NDCG@20	Recall@20
🥇 1	ToolRet	28.87	27.80
2	BGE-Large v1.5	26.14	25.49
3	Tool-Embed	25.67	24.46
13	SPLADE v2	3.48	3.72

主要发现

语义相似度与实际 Agent 性能之间存在一致性的差距，揭示了基于描述的检索和重排序方法的局限性
轻量级行为信号（包括执行感知探测）可以显著提升排序质量，表明将执行信号纳入 Agent 发现过程的重要性

许可证与引用

论文预印本：arXiv:2604.22436

搜集汇总

数据集介绍

构建方式

随着人工智能代理生态系统的蓬勃发展，为特定任务甄选合适代理成为新兴挑战。AgentSearchBench正是基于此背景构建的大规模基准数据集，旨在探索真实场景下的代理搜索问题。该数据集从GPT Store、Google Cloud Marketplace和AgentAI Platform三大平台爬取了9759个真实AI代理，并执行了超过6.6万次实际任务运行。在此基础上，通过自动化流程生成了逾3600条任务查询和324条任务描述，构建出包含验证集与测试集的完整数据体系。

特点

AgentSearchBench的核心特点在于其真实性与执行驱动的评估机制。数据集涵盖单一代理与多代理协作两种任务查询类型，以及高层面任务描述形式，全面模拟了现实代理使用场景。与依赖文本描述的检索方法不同，该基准引入执行接地性能信号作为相关性衡量标准，揭示了语义相似度与实际代理表现之间存在的显著偏差。实验表明，轻量级的行为信号，如执行感知探测，能有效提升排序质量，强调了将执行信号融入代理检索过程的重要性。

使用方法

数据集通过HuggingFace平台以三个子集形式发布：AgentSearchBench-Tasks、AgentSearchBench-Agents和AgentSearchBench-Responses。使用者可通过uv包管理器安装依赖并配置相关API密钥。任务生成支持单一、多元、真实和描述四种类型，通过调用脚本可自定义任务类型、标签生成与调试模式。探针功能则允许用户提交包含候选代理的任务查询，由系统执行并返回行为信号，从而评估检索与重排序算法的表现。详细使用指南可参考项目GitHub页面。

背景与挑战

背景概述

AgentSearchBench由Bin Wu、Arastun Mammadli、Xiaoyu Zhang、Emine Yilmaz等人于2026年构建，旨在应对AI代理生态系统快速扩张背景下，如何高效检索和识别适配复杂任务的智能代理这一新兴挑战。不同于传统工具，代理能力具备组合性与执行依赖性，难以通过文本描述准确评估，而现有基准往往局限于功能明确、候选池受控或仅处理可执行查询的简化场景。该基准从GPT Store、Google Cloud Marketplace、AgentAI平台爬取近万个真实代理，开展了超过6.6万次执行实验，构建了涵盖任务查询和任务描述的检索与重排序评估框架，为代理发现领域提供了首个大规模、执行信号驱动的评测平台。

当前挑战

该基准揭示的核心挑战在于语义相似性与实际代理性能之间的显著鸿沟：现有纯文本描述驱动的检索与重排序方法在Task Query和Task Description任务上NDCG@5均不足65%，召回率在检索任务中甚至低于30%。构建过程中面临的挑战包括：从多平台异构数据中爬取代理时需处理结构化差异与执行接口兼容性；生成3.6K任务查询时需避免数据泄漏；在长达66K次执行试验中，需为每个代理建立可靠的能力评估标签。实验进一步表明，引入执行感知探针等轻量级行为信号可显著提升排序质量，揭示了将执行信号纳入代理发现流程的必要性。

常用场景

经典使用场景

AgentSearchBench最为经典的使用场景是作为AI智能体检索与重排序任务的标准化评估基准。该基准从GPT Store、Google Cloud Marketplace以及AgentAI平台等真实世界中广泛搜集了逾9,700个高质量AI智能体，并基于超过66,000次实际执行结果构建了执行驱动的相关性标签。研究者可在此平台上系统性地评估各类检索模型与重排序方法在面对可执行任务查询与高层任务描述时的表现，从而揭示语义相似度与实际智能体能力之间的鸿沟。这一平台为探索如何在动态、开放、真实的环境中有效发现最适任的智能体提供了关键实验场。

衍生相关工作

自发布以来，AgentSearchBench催生了一系列富有影响力的衍生工作。一方面，排行榜上涌现了诸如RankGPT、Qwen Reranker、Tool-Rank等一系列经过执行信号优化的重排序模型，这些工作深入探索了将执行感知先验融入大规模语言模型以提升智能体排序效果的方法。另一方面，任务描述检索赛道中出现的ToolRet、Tool-Embed等专用检索器，展示了通过预训练任务定制化嵌入来桥接语义描述与执行性能的可行路径。此外，该基准为AgentSearch Challenge竞赛提供了测试床，激发了社区对执行信号下的智能体发现、动态候选池构建及零样本智能体适配等前沿问题的广泛探索。

数据集最近研究