SRA-Bench

github2026-04-29 更新2026-05-01 收录

下载链接：

https://github.com/oneal2000/SR-Agents

下载链接

链接失效反馈

官方服务：

资源简介：

SRA-Bench是一个技能检索增强基准，包含5,400个能力密集型测试实例，涵盖六个任务家族，每个实例都配有手动策划的黄金技能，嵌入在一个包含26,262个技能（636个黄金技能和25,626个网络收集的干扰项）的现实技能库中。

SRA-Bench is a skill retrieval-augmented benchmark containing 5,400 capability-intensive test instances across six task families. Each instance is paired with manually curated gold skills, which are embedded in a real-world skill library that holds 26,262 skills in total: 636 gold skills and 25,626 web-collected distractors.

创建时间：

2026-04-16

原始信息汇总

SR-Agents 数据集详情

数据集概述

SR-Agents 是一个面向技能检索增强（Skill Retrieval Augmentation, SRA） 的大语言模型智能体基准测试与科研工具包。该基准旨在解决传统智能体在技能库规模膨胀时，将全部候选技能枚举进提示词所导致的上下文预算耗尽和选择精度下降问题。

SRA-Bench 核心指标

测试实例总数：5,400 条能力密集型测试实例
任务族数量：6 类
黄金技能数：636 个（经过人工标注）
技能库总规模：26,262 个技能（636 个黄金技能 + 25,626 个从网络收集的干扰技能），黄金技能占比约 2.4%
技能映射模式：每个实例关联单个黄金技能（Single）或多个黄金技能（Multi）

数据集构成

数据集名称	能力类型	实例数量	技能数量	技能映射模式	评估方式
TheoremQA	定理应用	747	320	Single	基于规则
LogicBench	逻辑推理模式	760	19	Single	基于规则
ToolQA	工具使用工作流	1,430	14	Single	基于规则
MedCalc-Bench	医疗计算器	1,100	55	Single	基于规则
CHAMP	数学概念	223	89	Multi	基于规则
BigCodeBench	软件库	1,140	139	Multi	执行

技能使用方法

SR-Agents 定义了五种技能使用方法，由技能提供者（SkillProvider）和推理引擎（InferenceEngine）组合而成：

方法名称	技能提供者	推理引擎	描述
LLM Direct	none	direct	无外部技能，仅依赖参数化知识基线
Oracle Skill	oracle	direct	使用标注的黄金技能（上限参考）
Full-Skill Injection	topk(k=1)	direct	将 BM25 排名第一的技能完整内容加入提示词
LLM Selection	llm_select(pool=50)	direct	模型从 BM25 前50个技能中挑选一个后作答
Progressive Disclosure	topk(k=50)	progressive_disclosure	模型查看紧凑技能目录，按需加载技能

对于 ToolQA 数据集，direct 引擎替换为 react，progressive_disclosure 替换为 react_progressive_disclosure。

检索器

基准测试支持六种检索器：

BM25
TF-IDF
BGE（默认检查点：BAAI/bge-base-en-v1.5）
Contriever（默认检查点：facebook/contriever-msmarco）
Hybrid（BM25 + BGE 轮询融合）
BM25 + LLM Rerank

许可证

MIT 许可证

搜集汇总

数据集介绍

构建方式

在大型语言模型智能体日益依赖外部可复用技能包的背景下，SRA-Bench应运而生。该数据集精心构建于六个任务族之上，涵盖了定理应用、逻辑推理模式、工具使用工作流、医学计算、数学概念以及软件库调用等多元能力密集型场景。其核心构造策略是从六个源数据集中筛选出5400个测试实例，并为每个实例手工标注了对应的黄金技能。这些黄金技能与从网络搜集的25626个干扰技能共同嵌入到一个包含26262个技能的大型技能库中，其中636个为黄金技能，仅占2.4%，从而模拟了真实世界中技能库的稀疏性与噪声环境。每个实例被标注为单个黄金技能或多重黄金技能，确保了评估的粒度与挑战性。

特点

SRA-Bench最为显著的特点在于其大规模、高覆盖度的技能库设计与精细化的评估体系。该数据集不仅提供了5400个覆盖六大能力领域的测试实例，更构建了一个包含26262个技能条目的现实扰动库，其中黄金技能比例极低，真实反映了技能检索的难度。每个实例均与手工筛选的黄金技能一一对应或多项关联，支持从单一技能到复合技能的多层次评估。此外，数据集预设了基于规则的自动化评价指标，如准确率，能够对模型输出进行精确量化评判。其评测范围囊括了从无外部知识检索的纯参数基线到多种技能注入策略的完整对比，为技能检索增强智能体的研究提供了坚实的基准平台。

使用方法

使用SRA-Bench进行模型评估遵循清晰的三阶段流水线操作。首先，通过检索阶段利用BM25、TF-IDF、BGE等检索器从技能库中为每个实例召回候选技能，并输出排序后的技能列表及召回率指标。随后进入推理阶段，将检索到的技能以不同策略注入到语言模型上下文中，如全技能注入、LLM自主选择或渐进式披露等，驱动模型生成答案。最后，通过评估阶段内置的基于规则的评价器，从模型输出中提取答案并与真实标注进行比对，计算最终的端到端任务准确率。整个流程通过命令行工具sragents统一调度，支持各阶段独立运行与断点续传，便于研究者灵活实验与结果复现。

背景与挑战

背景概述

随着大型语言模型智能体的广泛部署，其执行复杂任务的能力日益依赖于可复用的外部技能模块。然而，当技能库规模激增至成千上万量级时，传统方法将所有候选技能枚举于提示词中的做法遭遇了严重的上下文预算瓶颈与选择精度退化问题。在此背景下，苏伟航等研究者于该领域提出技能检索增强这一新范式，并系统构建了SRA-Bench基准数据集。该数据集由5,400个高能力密集型测试实例构成，涵盖定理应用、逻辑推理、工具使用等六类任务，每个实例均配有精心标注的金标准技能，嵌入包含26,262条技能的真实大规模干扰库中。SRA-Bench为技能检索增强智能体的评估提供了标准化框架，推动了相关研究方向从定性讨论迈向定量实证分析，对智能体系统的模块化与可扩展性研究产生了重要引领作用。

当前挑战

技能检索增强研究面临的核心挑战在于技能库爆炸式增长与智能体有限上下文窗口之间的根本矛盾。当技能数量从数十扩展至数万，全量注入不再可行，而稀疏检索又极易遗漏关键技能，导致下游推理质量显著下降。构建过程中，数据集设计面临多重棘手难题：如何从海量开源语料中筛选并构建高质量金标准技能，使其兼具领域专业性与通用表达能力；如何设计包含合理难度分布的干扰项，使其既能模拟真实噪声环境又不至于完全掩盖信号；以及如何在六种异构任务间建立统一的评估协议，使技能检索效果的度量具备跨领域的可比性和可复现性。这些挑战共同界定了一个兼具理论深度与实践意义的开放研究前沿。

常用场景

经典使用场景

在技能检索增强（SRA）范式中，SRA-Bench最经典的使用场景是评估大型语言模型（LLM）在庞大外部技能库中动态检索并应用技能的能力。该基准包含5,400个测试样本，覆盖六大任务家族，如定理应用（TheoremQA）、逻辑推理模式（LogicBench）、工具使用工作流（ToolQA）、医疗计算（MedCalc-Bench）、数学概念（CHAMP）及软件库函数（BigCodeBench）。每个样本均配有精心标注的黄金技能，并嵌入一个包含26,262项技能的逼真噪声库中。研究者通过注入不同检索器（如BM25、BGE、Contriever）和技能使用方法（如全技能注入、渐进式披露），系统性地测试代理在技能密度极高环境下的推理与决策表现，从而严格衡量动态检索对代理能力增益的实际影响。

解决学术问题

SRA-Bench成功解决了LLM代理在面对大规模外部技能库时，静态枚举全部候选技能导致的上下文预算溢出与选取精度退化这一核心学术难题。传统做法将每个候选技能写入提示词，当技能库达数万规模时，上下文窗口不堪重负。SRA-Bench推动了动态技能检索增强范式的研究，使代理能按需从庞大库中精准调用技能，显著降低信息冗余。该基准提供的标准化评估框架（包括Recall@K、nDCG@K及下游任务准确率）为对比不同检索器与技能使用策略提供了客观标尺。其学术意义在于首次系统揭示了检索噪声对代理性能的非线性影响，并验证了渐进式披露机制在高噪声环境下优于直接注入，为后续构建鲁棒、可扩展的智能代理奠定了理论基础。

衍生相关工作

SRA-Bench的提出已催生多个方向的研究工作。首先，基于其开放式框架，衍生出对更高效混合检索器（如BM25与稠密检索融合）的深入探讨，以及LLM重排序级联策略（BM25→LLM Rerank）在技能精度上的增益分析。其次，围绕噪声鲁棒性，研究者拓展了“硬负样本干扰”实验范式，系统量化了干扰技能数量从0到8时对代理性能的衰减曲线。此外，受渐进式披露启发，后续工作探索了基于强化学习的自适应技能加载策略，以动态平衡上下文长度与信息密度。在工具使用场景中，ToolQA子集被改编为ReAct框架的评估基准，推动了多步工具规划与执行一致性研究。这些衍生工作共同构筑了技能检索增强领域日益完备的理论与实践体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集