SKILLRET

github2026-05-08 更新2026-05-09 收录

下载链接：

https://github.com/ThakiCloud/SKILLRET

下载链接

链接失效反馈

官方服务：

资源简介：

SkillRet是一个用于AI代理技能检索的大规模基准数据集。给定一个自然语言用户查询（例如：“你能在我提交之前审查我的暂存更改吗？”），任务是从一个包含6,660个AI代理技能的库中检索出最相关的技能。数据集包括训练和测试子集，分别包含技能、查询和相关性标签。

SkillRet is a large-scale benchmark dataset for AI Agent skill retrieval. Given a natural language user query (e.g., "Can you review my staged changes before I commit them?"), the task is to retrieve the most relevant skills from a library of 6,660 AI Agent skills. The dataset includes training and test subsets, each of which contains skills, queries, and relevance labels.

创建时间：

2026-04-28

原始信息汇总

SkillRet: AI Agent 技能检索基准数据集

数据集概述

SkillRet 是一个用于 AI Agent 技能检索的大规模基准数据集。任务定义如下：给定一个自然语言的用户查询（例如：“你能在我提交之前审查我的暂存更改吗？”），从包含 6,660 个 AI Agent 技能的开源库中检索最相关的技能。

论文地址: arXiv:2605.05726
数据集地址: HuggingFace - ThakiCloud/SKILLRET
许可证: Apache 2.0

数据集结构

数据集托管在 HuggingFace 上，包含训练集和测试集，具体分布如下：

子集	划分	记录数	描述
skills	test	6,660	评估用技能语料库
queries	test	4,997	评估用查询（由 Claude Opus 4.6 生成）
qrels	test	8,347	二元相关性标签
skills	train	10,123	训练用技能语料库
queries	train	63,259	训练用查询（由 Qwen3.5-122B-A10B 生成）
qrels	train	127,190	训练用相关性标签

评估指标

所有指标通过 pytrec_eval 在 k={5, 10, 15} 下计算：

指标	描述
NDCG@k	归一化折损累计增益
Recall@k	检索到的相关技能占比
Completeness@k	达到完美召回率的查询占比
MAP@k	平均平均精度

预训练模型

模型	类型	HuggingFace 地址
SKILLRET-Embedding-0.6B	Embedding	ThakiCloud/SKILLRET-Embedding-0.6B
SKILLRET-Embedding-8B	Embedding	ThakiCloud/SKILLRET-Embedding-8B
SKILLRET-Reranker-0.6B	Reranker	ThakiCloud/SKILLRET-Reranker-0.6B

主要结果

Embedding 检索结果

模型	参数量	NDCG@5	NDCG@10	Recall@10	Completeness@10
BM25	--	46.47	48.86	56.55	41.09
SKILLRET-Embedding-0.6B (ours)	0.6B	75.57	78.03	85.42	75.09
SKILLRET-Embedding-8B (ours)	8B	81.23	83.45	91.23	84.63

重排序结果（基于 SKILLRET-Embedding-0.6B top-20）

重排序模型	NDCG@5	NDCG@10	Recall@10	Completeness@10
仅 Embedding	75.57	78.03	85.42	75.09
SkillRet-Reranker-0.6B (ours)	80.71	82.18	87.61	78.95

数据集使用

数据集通过 HuggingFace 的 datasets 库自动下载和缓存，无需手动下载。示例加载代码：

python from skillret.eval import load_corpus, load_queries

skills = load_corpus() # 加载 6,660 条测试技能 queries = load_queries() # 加载 4,997 条测试查询

引用

bibtex @article{cho2026skillret, title = {SkillRet: A Large-Scale Benchmark for Skill Retrieval in LLM Agents}, author = {Cho, Hongcheol and Kang, Ryangkyung and Kim, Youngeun}, journal = {arXiv preprint arXiv:2605.05726}, year = {2026}, url = {https://arxiv.org/abs/2605.05726} }

搜集汇总

数据集介绍

构建方式

SKILLRET数据集的构建源于对开源代码仓库中AI代理技能的系统性收集与整理。研究团队从大量开源仓库中提取了6,660条技能数据，每条技能对应一个自然语言描述的功能模块。为了构建查询-技能匹配的基准测试，他们利用Claude Opus 4.6生成了4,997条测试查询，并借助Qwen3.5-122B-A10B模型生成了63,259条训练查询。每一条查询都与一个或多个相关技能通过人工标注与自动验证相结合的方式建立了二进制相关性标签，最终形成了包含8,347个测试关联对和127,190个训练关联对的高质量评测数据集。

特点

SKILLRET数据集在规模与多样性上展现出显著优势。其技能库涵盖6,660条来自真实开源世界的AI代理技能，覆盖代码审查、文本处理、数据操作等多元任务场景。通过大规模语言模型生成的查询天然具备自然语言表达的多样性与复杂性，使得检索任务更贴近实际应用。数据集分为训练集与测试集，其中测试集包含近5,000条查询，为模型评估提供了充足的样本。此外，数据集中所有技能与查询均通过二进制相关性标签精准关联，确保了评测的可靠性。

使用方法

SKILLRET数据集的使用遵循便捷高效的流程，依托HuggingFace平台自动分发。用户无需手动下载，调用Python接口即可直接加载技能语料库与查询集。在评估阶段，支持两阶段检索流程：首先使用嵌入模型进行初步检索，随后通过重排序模型精化结果。所有评估函数封装在skillret.eval模块中，只需指定模型路径即可一键运行。对于模型微调，训练脚本同样自动从HuggingFace加载数据，支持多GPU分布式训练，并提供了从硬负样本挖掘到最终模型微调的完整训练管线。

背景与挑战

背景概述

随着大语言模型（LLM）驱动的智能体在编程辅助、自动化工作流等复杂任务中日益普及，如何高效地从海量开源技能库中检索出适配用户自然语言查询的技能，成为制约智能体自主性与实用性的关键瓶颈。2026年，由Hongcheol Cho、Ryangkyung Kang和Youngeun Kim等人提出的SKILLRET基准数据集应运而生，旨在系统性地评估与推动AI智能体技能检索能力的发展。该数据集从开源仓库搜集并构建了包含6,660条技能条目、近5,000条测试查询及超过8,000条相关性标注的大规模评测基准，填补了现有智能体技能匹配领域缺乏标准化评估体系的空白。通过精细化的语料库与查询设计，SKILLRET不仅为检索模型提供挑战性测试，更推动领域内从简单关键词匹配向语义层级理解迈进。

当前挑战

SKILLRET所面对的挑战主要体现在两个层面。在领域问题层面，核心挑战在于如何使检索模型精准理解复杂的自然语言用户意图，并在包含6,600余条技能的大规模语料库中识别最相关的技能，这对模型的语义泛化能力与细粒度判别能力提出了极高要求，尤其在用户查询涉及具象操作场景（如代码审查、脚本执行）时。在数据集构建环节，研究人员面临三重挑战：一是从分散于各类开源仓库的技能文档中提炼统一、标准的关键元数据；二是利用先进语言模型自动化生成训练与测试查询，确保查询多样性、真实性与语义覆盖范围；三是构建大规模、高质量且一致的人工与自动混合标注体系，以平衡标注效率与相关性判别的准确性。这些挑战共同塑造了SKILLRET作为智能体技能检索基准的权威性与前瞻性。

常用场景

经典使用场景

在基于大语言模型的智能体系统中，智能体需根据用户以自然语言表达的复杂指令，从庞大的技能库中精准检索出最相关的技能模块。SKILLRET基准数据集为此任务提供了标准化的评测平台，其包含6,660条开源技能与4,997条由高级语言模型生成的测试查询，覆盖代码审查、文件操作等典型场景。研究者可通过该数据集系统评估嵌入模型与重排序模型在技能检索任务上的表现，利用NDCG、Recall和Completeness等指标衡量检索精度。SKILLRET还配套了完整的训练与评估流程，支持从密集检索到两阶段重排序的完整链路实验，为智能体技能检索领域的研究人员提供了可直接复现的基准测试环境。

实际应用

在工业级智能体平台中，SKILLRET所定义的技能检索框架可直接赋能代码助手、自动化运维系统和办公协同工具等产品。当用户提出“请帮我审阅暂存区的代码变更”这类复合指令时，部署了基于SKILLRET训练的检索模型的系统能从数千个技能中快速定位代码审查、差异分析和提交管理等关联能力模块。经过微调的SKILLRET-Embedding-8B模型在Top-10检索中展现出超过91%的召回率，这意味着终端用户能够获得更精准的技能推荐体验。该数据集支持的嵌入-重排序两阶段检索架构，为构建高响应速度与高精度兼备的线上推理服务提供了可直接迁移的技术方案。

衍生相关工作

SKILLRET的发布催生了多项具有启发意义的后续研究。在检索架构层面，研究者基于其两阶段框架发展了融合意图消歧的层级化检索策略，将用户查询的语义解析与技能匹配过程深度耦合。在模型优化方面，SKILLRET训练管线中采用的批量负样本排序损失和硬负样本挖掘技术，已被推广至其他专业领域的嵌入模型微调中。此外，该数据集使用的Completeness@k指标促使学界重新审视检索系统的完备性标准，推动了面向场景覆盖率评估的新一代度量设计。一系列基于SKILLRET的实验结果表明，专用检索模型在同等参数规模下可超越通用模型超过15%的NDCG性能，这一发现为构建领域定制化检索基座提供了新的研究路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集