five

ASTRA

收藏
arXiv2025-10-31 更新2025-11-01 收录
下载链接:
https://outshift-open.github io/ASTRA
下载链接
链接失效反馈
官方服务:
资源简介:
ASTRA数据集是一个用于基准测试任务和范围之间语义匹配的数据集。该数据集旨在帮助研究人员评估和改进语义匹配技术在多代理和工具增强型应用程序中的应用,特别是细粒度控制,如基于任务的访问控制。
提供机构:
思科系统,瑞士
创建时间:
2025-10-31
搜集汇总
数据集介绍
构建方式
ASTRA数据集的构建采用了系统化的数据生成流程,通过精心筛选12个企业级MCP服务器作为基础工具库,涵盖从维基百科到GitHub等多样化应用场景。构建过程中首先提取各服务器的元数据,包括工具名称、描述和参数信息,随后采用分层抽样策略生成包含1-3个工具组合的任务集。利用大语言模型生成多样化任务描述时,特别注重保持工具使用的隐晦性,避免直接映射工具参数,确保任务场景的自然性与真实性。数据生成阶段还设计了错误匹配模拟机制,通过同服务器语义相似工具采样和跨服务器工具采样两种方式,构建包含正确与错误工具请求的完整评估样本。
特点
该数据集最显著的特征在于其专注于语义任务与权限范围的匹配评估,填补了委托授权领域缺乏基准数据的空白。数据集包含352组工具组合任务,每个组合生成3个独立任务实例,确保了数据的丰富性和多样性。特别值得关注的是其构建的错误匹配样本,既包含语义相近的错误请求,也涵盖完全无关的异常请求,这种设计能够全面评估语义匹配模型的鲁棒性。此外,数据集严格遵循现实场景中的工具使用模式,任务描述避免直接提及工具名称,要求模型必须理解深层语义才能做出准确判断,这大大增强了评估的挑战性和实用性。
使用方法
使用ASTRA数据集时,研究人员可通过其标准化的评估流程系统检验语义匹配算法的性能。数据集支持两种主要评估模式:单工具匹配场景专注于基础语义理解能力,多工具匹配场景则考察复杂工作流中的组合决策能力。评估时需注意数据的分割策略,验证集与测试集在工具和服务器层面完全隔离,确保评估结果的可靠性。数据集还提供了与Toucan公开数据的对比接口,使研究者能够在统一框架下比较不同数据源上的性能表现。使用过程中应特别关注错误匹配比例配置,默认设置保持0.8的错误匹配和0.2的异常匹配比例,模拟真实环境中的风险分布。
背景与挑战
背景概述
ASTRA数据集由思科系统公司研究人员于2025年创建,专注于解决大语言模型驱动智能体在委托授权场景中的语义任务-权限匹配问题。该数据集填补了现有授权流程中缺乏语义对齐基准的空白,通过构建包含语义合理与不合理权限请求的配对数据,为任务导向型访问控制机制提供评估基础。其创新性体现在将自然语言任务描述与动态权限范围进行关联建模,推动了智能体授权从静态规则向语义感知范式的演进。
当前挑战
该数据集需解决智能体动态调用工具时权限过载的核心问题,即如何精准匹配自然语言任务与最小必要权限范围。构建过程中面临双重挑战:一是需模拟真实场景中智能体可能提出的语义偏差请求,包括同服务器内错误匹配与跨服务器空匹配;二是需保持任务描述的隐晦性以避免直接暴露工具参数,同时确保多工具任务中语义关联的复杂性,这对数据生成管线的语义一致性与多样性提出较高要求。
常用场景
经典使用场景
在智能代理授权管理领域,ASTRA数据集为语义任务与权限范围匹配研究提供了基准测试平台。该数据集通过模拟真实场景中的工具调用请求,包含语义匹配和语义不匹配的权限范围选择,为评估授权服务器在动态权限授予过程中的语义理解能力提供了标准化测试环境。研究人员利用该数据集能够系统评估不同语义匹配算法在防止权限过度授予方面的表现,为构建更安全的代理授权机制奠定基础。
实际应用
在企业级AI代理部署场景中,ASTRA数据集支撑的语义匹配技术已应用于云服务权限管理。当代理需要访问受保护的Azure资源时,授权服务器可依据数据集训练的语义模型,动态评估代理请求的权限范围是否与用户原始任务意图相符。这种应用显著降低了代理越权操作的风险,特别是在处理敏感数据的搜索服务枚举、订阅管理等企业工作流中,确保了代理行为严格限定在授权范围内。
衍生相关工作
基于ASTRA数据集的研究催生了多项语义授权领域的创新工作。语义相似度匹配器和基于大语言模型的推理匹配器成为该领域代表性方法,推动了任务到工具匹配算法的持续优化。后续研究进一步扩展了多轮对话场景下的权限管理,并衍生出面向多代理系统的协同授权框架。这些工作共同构成了语义感知授权技术体系,为下一代智能代理安全架构提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作